Я тренирую MNIST на 8 слоях (1568-784-512-256-128-64-32-10) полносвязной глубокой нейронной сети с вновь созданной функцией активации, как показано на рисунке ниже. Эта функция немного похожа на ReLU, однако, дает кривую помета на «изломе».
Он работал нормально, когда я использовал его для обучения 5 слоев, 6 слоев и 7 слоев полносвязных нейронных сетей. Проблема возникает, когда я использую его в 8-слойных полносвязных нейронных сетях. Где он будет учиться только в первые несколько эпох, а затем перестанет учиться (потеря при тестировании дает «нан», а точность теста падает до 9,8%). Почему это происходит?
Мои другие конфигурации следующие: отсев = 0,5, инициализация веса = инициализация Xavier, скорость обучения = 0,1.