Я разрабатываю модель последовательностей (бумага) для генерации текста. Я не использую «принудительную работу учителя» на стороне декодера, т. е. вывод декодера в момент t0 подается на вход декодера в момент времени t1.
Теперь, в действительности, выходные данные декодера (LSTM/GRU) проходят через плотный слой, который, в свою очередь, генерирует индекс слова, который рассматривается как выходные данные декодера.
Но для подачи вывода на следующий уровень, должны ли мы передать h_t (т.е. вывод декодера/скрытое состояние декодера) на следующий шаг, или вложение слова следующего слова является правильным выбор ?