Векторы слов из всей модели doc2vec против векторов слов из конкретного документа

Я обучил модель Gensim Doc2Vec с обучением word2vec по умолчанию (dm = 1). Я могу получить векторы слов из глобальной модели в model.wv.vectors. Но в документации говорится, что то же слово (в примере «листья») победило » t имеют одинаковый вектор в зависимости от контекста документа, в котором он появляется.

Поэтому я немного запутался: в файле model.wv.vectors слово «листья», например, будет иметь один и тот же вектор для всех документов, используемых для обучения модели (это может противоречить тому, что я понимаю из документации )? Если нет, как получить векторы слов из конкретного документа?


person JC Garnier    schedule 01.05.2019    source источник


Ответы (1)


Эта документация вводит в заблуждение. Слово-лексема 'leaves' будет иметь только одно слово-вектор в этой модели.

Я предполагаю, что автор этого комментария мог иметь в виду, что во время обучения модели в режиме PV-DM (dm=1) на прогнозы обучения будет влиять комбинация слова-вектора и 'плавающий' документ-вектор для этого текста (и других соседних векторов слов в контекстном окне). Но все же у одного слова есть только один вектор, и описание там запутанное.

person gojomo    schedule 01.05.2019