Расчет тематического распределения невидимого документа на GenSim

Я пытаюсь использовать модуль LDA GenSim для выполнения следующей задачи

«Обучите модель LDA с помощью одного большого документа и отслеживайте 10 скрытых тем. Получив новый, невидимый документ, спрогнозируйте распределение вероятностей 10 скрытых тем».

Согласно руководству здесь: http://radimrehurek.com/gensim/tut2.html, это кажется возможным для документа в корпусе, но мне интересно, возможно ли это для невидимого документа.

Спасибо!


person Jenna Kwon    schedule 02.12.2016    source источник


Ответы (1)


Из опубликованной вами документации похоже, что вы можете тренировать свою модель следующим образом:

>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)

А затем с этой страницы похоже, что вы можете применить свою модель к «невидимому документу. " нравится:

>>> doc_lda = model[doc_bow]

Где doc_bow - это набор слов, созданный doc2bow.

person evan.oman    schedule 02.12.2016
comment
Не могли бы вы объяснить, что такое doc_lda и как его можно анализировать? - person Tolga; 22.03.2019
comment
doc_lda также может называться 'a' или 'b', он возвращает распределение тем для doc_bow следующим образом: [(0, 0,33), (1, 0,33), (2, 0,33)], поэтому за темой следует процент, который комментарий / документ / текстовые данные относятся к этой теме - person Sara; 24.04.2019
comment
Как я могу извлечь название темы из упомянутого выше комментария. И если у меня есть текст типа text = Дни светлые и хорошие. А в моей предопределенной модели lda есть 10 тем. Рассчитывает ли тематическая вероятность всех слов? На данный момент я предполагаю, что текст, который я упомянул, находится после стоп-слова stemmin и т. Д. - person Naveen Srikanth; 08.04.2020