Я тренировал textsum seq2seq с моделью внимания для абстрактного обобщения на учебном корпусе из 600 000 статей + рефераты. Можно ли это считать конвергенцией? Если да, то может быть правильно, что он сошёлся меньше, чем, скажем, за 5 тысяч шагов? Соображения:
- Я тренировался на словарном запасе размером 200 тыс.
- 5 тыс. шагов (до приблизительной сходимости) при размере партии 4 означает, что было просмотрено не более 20 тыс. различных выборок. Это лишь часть всего тренировочного корпуса.
Или я на самом деле не читаю морду моей собаки в чайных листьях, и предельный отрицательный наклон соответствует ожидаемому?