Какими должны быть входные данные для модели «Декодер последовательности к последовательности»?

Я разрабатываю модель последовательностей (бумага) для генерации текста. Я не использую «принудительную работу учителя» на стороне декодера, т. е. вывод декодера в момент t0 подается на вход декодера в момент времени t1.

Теперь, в действительности, выходные данные декодера (LSTM/GRU) проходят через плотный слой, который, в свою очередь, генерирует индекс слова, который рассматривается как выходные данные декодера.

Но для подачи вывода на следующий уровень, должны ли мы передать h_t (т.е. вывод декодера/скрытое состояние декодера) на следующий шаг, или вложение слова следующего слова является правильным выбор ?


person dip_tech    schedule 02.04.2018    source источник


Ответы (1)


Краткий ответ: вероятно, и то, и другое, но скрытое состояние h_t необходимо.

Передача скрытого состояния h_t требуется для передачи информации обо всем предложении (а не только о предыдущем слове) с одного уровня декодера на следующий.

Кормить вложение выбранного слова не обязательно, но, вероятно, это хорошая идея. Это позволяет декодеру обусловливать предыдущие выборы, которые он был вынужден сделать.

person myrtlecat    schedule 02.04.2018