Можно ли определить лучшую отправную точку для алгоритма оптимизации градиентного спуска в отношении нейронных сетей?
Например, глядя на пример поверхности потерь, содержащий локальные и глобальные минимумы в приведенной ниже ссылке, становится ясно (1), что некоторые начальные точки лучше других в том смысле, что глобальный оптимум будет достигнут быстрее, чем другие начальные точки ( 2) что некоторые начальные точки вызовут спуск к ЛОКАЛЬНЫМ, а не ГЛОБАЛЬНЫМ оптимумам и (3) что некоторые начальные точки, вероятно, вообще никогда не сойдутся.
Заранее спасибо за любой вклад :)