Резюме статьи: Dropout: простой способ предотвратить переобучение нейронных сетей

Шривастава, Нитиш и др. Журнал исследований машинного обучения (2014 г.)

Мое первое знакомство с отсевом было в Специализации Эндрю Нг по глубокому обучению на Coursera, которая дала довольно четкое представление о том, как и почему работает отсев, используя простой пример классификатора кошек, который с тех пор остался со мной. Хотя этот метод уже использовался в статье AlexNet, эта рукопись обеспечивает глубокое понимание и анализ отсева с тщательным экспериментированием.

1. Введение

Документ начинается с утверждения, что комбинация моделей почти всегда повышает производительность. Однако для объединения моделей нейронных сетей они должны либо обучаться на разных подмножествах данных, либо иметь разную архитектуру. Оба этих сценария сопряжены с трудностями.

Использование байесовского золотого стандарта — лучший способ усреднить прогнозы нескольких разных моделей, взвесив их по их апостериорной вероятности с учетом обучающих данных. Dropout предлагает аппроксимацию этого, в которой они берут равновзвешенное среднее геометрическое предсказаний экспоненциального числа изученных моделей, которые имеют общие параметры. Применение этого метода эквивалентно выборке подмножества фактической архитектуры нейронной сети, в которой используются общие параметры.

2. Мотивация

Авторы утверждают, что мотивация для этой техники исходит от одного из двигателей человечества, секса.

3. Описание модели

С отсевом операция прямой связи становится такой, как показано ниже, где вектор r представляет собой вектор независимых случайных величин Бернулли, вероятность каждой из которых p равна 1. Это равносильно выборке подсети из более крупной сети.

Изменения в архитектуре показаны ниже.

Во время тестирования веса W масштабируются как pW, и полученная нейронная сеть используется без отсева.

4. Изучение сетей отсева

Выпадающие нейронные сети можно обучать с помощью стохастического градиентного спуска аналогично стандартным нейронным сетям. Но прямое и обратное распространение выполняются только в этой истонченной сети. Авторы заявляют, что особый метод регуляризации оказался особенно полезным для отсева: регуляризация по максимальной норме. Его можно описать следующим образом:

Они также заявляют, что отсев вместе с регуляризацией по максимальной норме, большими темпами затухания обучения и высоким импульсом обеспечивают значительный импульс по сравнению с простым использованием отсева. Они обосновывают это следующей интуицией: Ограничение векторов весов лежать внутри шара фиксированного радиуса позволяет использовать огромную скорость обучения без возможности взрыва весов. Затем шум, создаваемый выпадением, позволяет процессу оптимизации исследовать различные области весового пространства, которые иначе было бы трудно достичь. По мере снижения скорости обучения этапы оптимизации становятся короче, поэтому требуется меньше исследований и в конечном итоге сводится к минимуму.

Авторы также отмечают, что отсев может быть применен к сетям точной настройки, которые были предварительно обучены путем увеличения веса с коэффициентом 1/p.

5. Экспериментальные результаты

Авторы обучили нейронные сети отсева для задач классификации в различных наборах данных, продемонстрировав, что отсев — это общий метод улучшения нейронных сетей, а не специфичный для какой-либо конкретной области приложения.

Они достигают высочайшей производительности почти на всех этих наборах данных и даже выигрывают конкурс ILSVRC-2012, используя нейронные сети с отсевом. Одна вещь, которую они отмечают, заключается в том, что улучшение набора текстовых данных было намного меньше по сравнению с наборами данных зрения и речи.

Далее они сравнивают эту технику с байесовскими нейронными сетями. BNN предлагают правильный способ выполнения усреднения модели по пространству архитектуры и параметров нейронной сети. Здесь каждая мода взвешивается с учетом априорной и апостериорной вероятности. С другой стороны, отсев выполняет равновзвешенное среднее экспоненциально многих моделей с общими параметрами. Авторы проводят эксперименты, в которых сравнивают BNN с отсевающими нейронными сетями в наборе данных, где известно, что BNN дают самые современные результаты. Они обнаружили, что BNN работают лучше, чем отсев, но отсев значительно улучшает производительность стандартных нейронных сетей и превосходит все другие методы.

6. Отличительные черты

Теперь авторы исследуют влияние отсева на качество создаваемых функций и редкость активаций скрытых юнитов; влияние различных показателей отсева и размера обучающей выборки; и сравните отсев с усреднением модели Монте-Карло.

В стандартной нейронной сети каждый параметр получает градиент, который сообщает ему, как должен измениться параметр, чтобы уменьшить потери, учитывая то, что делают все остальные единицы. Это может привести к совместной адаптации между единицами, что приведет к потере обобщения. Для каждой скрытой единицы отсев предотвращает совместную адаптацию, делая присутствие других скрытых единиц ненадежным. Скрытая единица должна хорошо работать в различных контекстах, обеспечиваемых другими скрытыми единицами. На приведенном выше рисунке показаны функции, созданные с отсевом и без него. Скрытые блоки, использующие выпадение, похоже, обнаруживают края и пятна в разных частях изображения.

Авторы также отмечают, что побочным эффектом использования отсева является разреженное представление, даже если отсутствуют регуляризаторы, вызывающие разреженность.

Далее авторы экспериментируют с различными значениями p, сохраняя число скрытых единиц n постоянным. В этом случае маленькое значение p означает, что во время обучения будет включаться очень мало устройств, что приведет к недообучению. По мере увеличения p ошибка уменьшается, а затем увеличивается, когда p приближается к 1.

В другом варианте того же авторы сохраняют pn постоянным, изменяя при этом значение p. Это означает, что сети с малым значением p будут иметь большое количество скрытых элементов, и наоборот. Однако тестовые сети будут разных размеров. В этом случае значения p, близкие к 0,6, по-видимому, лучше всего подходят для их выбора pn.

Затем авторы экспериментируют, чтобы оценить влияние изменения размера набора данных при использовании отсева. Они отмечают, что для очень маленьких наборов данных (100, 500) отсев не дает никаких улучшений. У модели достаточно параметров, чтобы она могла соответствовать обучающим данным. По мере увеличения размера набора данных выигрыш от отсева увеличивается, а затем снижается.

Во время тестирования с помощью отсева мы аппроксимируем комбинации моделей, уменьшая веса обученных нейронных сетей. Более правильный способ усреднения — выборка k нейронных сетей для каждого теста с использованием отсева и усреднение их прогнозов. Когда k стремится к бесконечности, среднее значение модели приближается к истинному среднему значению модели. Из приведенного выше рисунка видно, что при k = 50 метод Монте-Карло становится таким же хорошим, как и приближенный метод, предполагая, что метод весового масштабирования является довольно хорошим приближением к истинному среднему значению модели.

7. Мультипликативный гауссовский шум

Этот раздел представляет собой интересное понимание авторов, в котором они обобщают отсев как умножение активаций на случайные величины, взятые из вероятностных распределений. Они заявляют, что умножение на случайную величину, взятую из N(1,1), работает так же хорошо или даже лучше, чем использование шума Бернулли. Это несколько сложно по математике, и лучше, если вы будете читать этот раздел прямо из статьи.

8. Заключение

Авторы заявляют, что отсев — это общий метод улучшения нейронных сетей за счет уменьшения переобучения. Он разрушает коадаптацию, делая присутствие какой-либо конкретной скрытой единицы надежным и, таким образом, уменьшая переоснащение. Одним из недостатков отсева является то, что он увеличивает время обучения. Обучаемая сеть обычно занимает в 2–3 раза больше времени, чем стандартная нейронная сеть с той же архитектурой. Основной причиной этого увеличения является то, что обновления параметров очень зашумлены. Однако вполне вероятно, что эта стохастичность предотвращает переоснащение.

9. Заключительные слова

Статья очень хорошо написана и довольно проста для понимания, а также содержит глубокий анализ одного из наиболее важных методов обучения.

10. Ссылки

Шривастава, Нитиш и др. Журнал исследований машинного обучения (2014 г.)