Я работаю над распознаванием лиц с помощью глубокой нейронной сети. Я использую базу данных CASIA-webface, содержащую 10575 классов. для обучения глубокой CNN (используемой CASIA, подробности см. в статье) раздела 10 Convolution, 5 Pooling and 1 полностью связанный слой. Для активации используется функция "ReLU"
. Мне удалось успешно обучить его с помощью caffe и получили желаемую производительность.
Моя проблема в том, что я не могу обучить/настроить ту же CNN, используя "PReLU"
активацию. Сначала я думал, что простая замена "ReLU"
на "PReLU"
сработает. Однако ни одна из стратегий тонкой настройки (из caffemodel, которая была изучена с помощью "ReLU"
) и обучения с нуля не сработала.
Чтобы упростить задачу обучения, я значительно сократил обучающий набор данных только до 50 классов. Тем не менее, CNN все еще не могла учиться с "PReLU"
, тогда как она могла учиться с "ReLU"
.
Чтобы понять, что мой caffe отлично работает с "PReLU"
, я проверил его, запустив простые сети (и с "ReLU"
, и с "PReLU"
) с использованием данных cifar10, и это сработало.
Я хотел бы знать от сообщества, есть ли у кого-то подобные наблюдения. Или, если кто-нибудь может предложить какие-либо предложения по преодолению этой проблемы.