Как интерпретировать эту кривую потерь модели textsum?

Я тренировал textsum seq2seq с моделью внимания для абстрактного обобщения на учебном корпусе из 600 000 статей + рефераты. Можно ли это считать конвергенцией? Если да, то может быть правильно, что он сошёлся меньше, чем, скажем, за 5 тысяч шагов? Соображения:

  • Я тренировался на словарном запасе размером 200 тыс.
  • 5 тыс. шагов (до приблизительной сходимости) при размере партии 4 означает, что было просмотрено не более 20 тыс. различных выборок. Это лишь часть всего тренировочного корпуса.

Или я на самом деле не читаю морду моей собаки в чайных листьях, и предельный отрицательный наклон соответствует ожидаемому?

Потери по шагам


person anthnyprschka    schedule 15.08.2017    source источник
comment
модель явно все еще учится. сгладьте его больше, чтобы увидеть, но ясно, что после 5k было около 6,2, сейчас около 5,8.   -  person lejlot    schedule 21.08.2017
comment
Вы случайно не знаете, каким может быть эталон для running_avg_loss при сходимости, не так ли? Я использовал те же гиперпараметры, что и авторы textsum, но мои выводы пока бесполезны. Нет, я оцениваю, имеет ли это какое-то отношение ко мне, использующему другой набор данных (не Gigaword, а NYT), были ли в модель внесены какие-то ошибки, или я просто слишком нетерпелив и должен позволить модели обучать a намного дольше (или получить графический процессор, так как я тренирую это на процессоре atm, который кажется ужасно медленным)..   -  person anthnyprschka    schedule 29.08.2017


Ответы (1)


Итак, я фактически переключился на обучение на GPU (вместо CPU) и доказал, что модель все еще обучается. Вот кривая обучения после инициализации совершенно новой модели: введите здесь описание изображения

Ускорение было примерно 30-кратным при обучении с AWS p2.xlarge NVIDIA K80.

person anthnyprschka    schedule 11.09.2017