Почему в документе для первого внимания не используются вложения слов (Glove, word2vecetc)?

В статье Нейронный машинный перевод путем совместного обучения выравниванию и переводу Bahdanau et. al. почему не используются вложения слов, такие как Glove или word2vec?

Я понимаю, что это была статья 2014 года, но текущие реализации статьи на github также не используют встраивание слов?

Для попытки закодировать статью разумно использовать вложения слов?

mocarsha2019 12.03.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вкратце - модель определенно использует вложения слов, они просто не являются предварительно обученными вложениями, такими как Glove или word2vec; вместо этого вложения инициализируются случайным образом и совместно обучаются вместе с остальной частью сети.

В полном описании сети в разделе A.2 оригинальной книги Bahdanau et al. paper вы увидите слова "матрицы внедрения" E, описанные как для кодировщика, так и для декодера. Как они были инициализированы, также описано в разделе B.1.

Обычно это работает так же хорошо или лучше, чем предварительно обученные вложения в ситуациях, когда у вас достаточно данных. Тем не менее, в условиях нехватки ресурсов это может помочь инициализировать матрицу внедрения с помощью предварительно обученных внедрений. Этот документ может помочь вам изучить эту идею более подробно.

Кроме того, ваше заявление о том, что текущие реализации этого не делают, не совсем точно - хотя верно, что вложения обычно обучаются совместно по умолчанию, многие существующие нейронные инструменты MT имеют возможность инициализировать вложения с предварительно обученными векторами. Например, OpenNMT-py, Мэриан.

Proyag 12.03.2019

Почему в документе для первого внимания не используются вложения слов (Glove, word2vecetc)?

Ответы (1)

Похожие вопросы