Почему в документе для первого внимания не используются вложения слов (Glove, word2vecetc)?

В статье Нейронный машинный перевод путем совместного обучения выравниванию и переводу Bahdanau et. al. почему не используются вложения слов, такие как Glove или word2vec?

Я понимаю, что это была статья 2014 года, но текущие реализации статьи на github также не используют встраивание слов?

Для попытки закодировать статью разумно использовать вложения слов?


person mocarsha2019    schedule 12.03.2019    source источник


Ответы (1)


Вкратце - модель определенно использует вложения слов, они просто не являются предварительно обученными вложениями, такими как Glove или word2vec; вместо этого вложения инициализируются случайным образом и совместно обучаются вместе с остальной частью сети.

В полном описании сети в разделе A.2 оригинальной книги Bahdanau et al. paper вы увидите слова "матрицы внедрения" E, описанные как для кодировщика, так и для декодера. Как они были инициализированы, также описано в разделе B.1.

Обычно это работает так же хорошо или лучше, чем предварительно обученные вложения в ситуациях, когда у вас достаточно данных. Тем не менее, в условиях нехватки ресурсов это может помочь инициализировать матрицу внедрения с помощью предварительно обученных внедрений. Этот документ может помочь вам изучить эту идею более подробно.

Кроме того, ваше заявление о том, что текущие реализации этого не делают, не совсем точно - хотя верно, что вложения обычно обучаются совместно по умолчанию, многие существующие нейронные инструменты MT имеют возможность инициализировать вложения с предварительно обученными векторами. Например, OpenNMT-py, Мэриан.

person Proyag    schedule 12.03.2019