Как интерпретировать эту кривую потерь модели textsum?

Я тренировал textsum seq2seq с моделью внимания для абстрактного обобщения на учебном корпусе из 600 000 статей + рефераты. Можно ли это считать конвергенцией? Если да, то может быть правильно, что он сошёлся меньше, чем, скажем, за 5 тысяч шагов? Соображения:

Я тренировался на словарном запасе размером 200 тыс.
5 тыс. шагов (до приблизительной сходимости) при размере партии 4 означает, что было просмотрено не более 20 тыс. различных выборок. Это лишь часть всего тренировочного корпуса.

Или я на самом деле не читаю морду моей собаки в чайных листьях, и предельный отрицательный наклон соответствует ожидаемому?

anthnyprschka 15.08.2017 источник

comment

модель явно все еще учится. сгладьте его больше, чтобы увидеть, но ясно, что после 5k было около 6,2, сейчас около 5,8. - lejlot 21.08.2017

comment

Вы случайно не знаете, каким может быть эталон для running_avg_loss при сходимости, не так ли? Я использовал те же гиперпараметры, что и авторы textsum, но мои выводы пока бесполезны. Нет, я оцениваю, имеет ли это какое-то отношение ко мне, использующему другой набор данных (не Gigaword, а NYT), были ли в модель внесены какие-то ошибки, или я просто слишком нетерпелив и должен позволить модели обучать a намного дольше (или получить графический процессор, так как я тренирую это на процессоре atm, который кажется ужасно медленным).. - anthnyprschka 29.08.2017

Ответы (1)

arrow_upward
0
arrow_downward

Итак, я фактически переключился на обучение на GPU (вместо CPU) и доказал, что модель все еще обучается. Вот кривая обучения после инициализации совершенно новой модели:

Ускорение было примерно 30-кратным при обучении с AWS p2.xlarge NVIDIA K80.

anthnyprschka 11.09.2017

Как интерпретировать эту кривую потерь модели textsum?

Ответы (1)

Похожие вопросы