Я новичок в doc2vec. Сначала я пытался понять doc2vec, и ниже упоминается мой код, который использует Gensim. Как я хочу, я получаю обученную модель и векторы документов для двух документов.
Однако я хотел бы узнать о преимуществах переобучения модели в несколько эпох и как это сделать в Gensim? Можем ли мы сделать это, используя параметр iter
или alpha
, или нужно обучать его в отдельном for loop
? Пожалуйста, дайте мне знать, как мне изменить следующий код, чтобы обучить модель 20 эпохам.
Кроме того, мне интересно знать, что для модели word2vec также необходимы несколько итераций обучения.
# Import libraries
from gensim.models import doc2vec
from collections import namedtuple
# Load data
doc1 = ["This is a sentence", "This is another sentence"]
# Transform data
docs = []
analyzedDocument = namedtuple('AnalyzedDocument', 'words tags')
for i, text in enumerate(doc1):
words = text.lower().split()
tags = [i]
docs.append(analyzedDocument(words, tags))
# Train model
model = doc2vec.Doc2Vec(docs, size = 100, window = 300, min_count = 1, workers = 4)
# Get the vectors
model.docvecs[0]
model.docvecs[1]