Вкратце - модель определенно использует вложения слов, они просто не являются предварительно обученными вложениями, такими как Glove или word2vec; вместо этого вложения инициализируются случайным образом и совместно обучаются вместе с остальной частью сети.
В полном описании сети в разделе A.2 оригинальной книги Bahdanau et al. paper вы увидите слова "матрицы внедрения" E
, описанные как для кодировщика, так и для декодера. Как они были инициализированы, также описано в разделе B.1.
Обычно это работает так же хорошо или лучше, чем предварительно обученные вложения в ситуациях, когда у вас достаточно данных. Тем не менее, в условиях нехватки ресурсов это может помочь инициализировать матрицу внедрения с помощью предварительно обученных внедрений. Этот документ может помочь вам изучить эту идею более подробно.
Кроме того, ваше заявление о том, что текущие реализации этого не делают, не совсем точно - хотя верно, что вложения обычно обучаются совместно по умолчанию, многие существующие нейронные инструменты MT имеют возможность инициализировать вложения с предварительно обученными векторами. Например, OpenNMT-py, Мэриан.
person
Proyag
schedule
12.03.2019