Какими должны быть входные данные для модели «Декодер последовательности к последовательности»?

Я разрабатываю модель последовательностей (бумага) для генерации текста. Я не использую «принудительную работу учителя» на стороне декодера, т. е. вывод декодера в момент t0 подается на вход декодера в момент времени t1.

Теперь, в действительности, выходные данные декодера (LSTM/GRU) проходят через плотный слой, который, в свою очередь, генерирует индекс слова, который рассматривается как выходные данные декодера.

Но для подачи вывода на следующий уровень, должны ли мы передать h_t (т.е. вывод декодера/скрытое состояние декодера) на следующий шаг, или вложение слова следующего слова является правильным выбор ?

dip_tech 02.04.2018 источник

Ответы (1)

arrow_upward
1
arrow_downward

Краткий ответ: вероятно, и то, и другое, но скрытое состояние h_t необходимо.

Передача скрытого состояния h_t требуется для передачи информации обо всем предложении (а не только о предыдущем слове) с одного уровня декодера на следующий.

Кормить вложение выбранного слова не обязательно, но, вероятно, это хорошая идея. Это позволяет декодеру обусловливать предыдущие выборы, которые он был вынужден сделать.

myrtlecat 02.04.2018

Какими должны быть входные данные для модели «Декодер последовательности к последовательности»?

Ответы (1)

Похожие вопросы