Об оптимизации на основе градиентного спуска для нейронных сетей

Можно ли определить лучшую отправную точку для алгоритма оптимизации градиентного спуска в отношении нейронных сетей?

Например, глядя на пример поверхности потерь, содержащий локальные и глобальные минимумы в приведенной ниже ссылке, становится ясно (1), что некоторые начальные точки лучше других в том смысле, что глобальный оптимум будет достигнут быстрее, чем другие начальные точки ( 2) что некоторые начальные точки вызовут спуск к ЛОКАЛЬНЫМ, а не ГЛОБАЛЬНЫМ оптимумам и (3) что некоторые начальные точки, вероятно, вообще никогда не сойдутся.

https://www.researchgate.net/profile/Klaus_Raizer/publication/278036660/figure/fig7/AS:294224927969287@1447160097730/Error-surface-in-the-weigth-space-for-two-weights.png

Заранее спасибо за любой вклад :)

Emile Beukes 03.07.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

На данный момент теоретически не совсем ясно, как лучше всего инициализировать веса нейронной сети. Как вы упомянули, поверхность потерь очень невыпуклая, и в зависимости от инициализации могут происходить разные вещи.

Текущие популярные и эмпирически проверенные методы инициализации включают инициализацию Glorot (http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf?hc_location=ufi) или инициализация He (https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf), которые направлены на стабилизацию учебного процесса.

Есть некоторые новые теоретические гарантии хорошего поведения сети с определенной случайной инициализацией: https://arxiv.org/abs/1901.03611

Немного коснувшись вашего вопроса, недавно было показано, что для некоторых сетей, если они обучены с помощью SGD, они будут сходиться к почти ближайшему глобальному оптимуму поверхности потерь: https://arxiv.org/abs/1902.04674

В заключение, нет общепринятого ответа, какая инициализация является лучшей для глубоких нейронных сетей, однако есть эмпирически проверенные «хорошие» инициализации, и недавно были получены некоторые теоретические результаты, но в настоящее время это очень активная область исследований.

zfabian 03.07.2019

Об оптимизации на основе градиентного спуска для нейронных сетей

Ответы (1)

Похожие вопросы