Расчет тематического распределения невидимого документа на GenSim

Я пытаюсь использовать модуль LDA GenSim для выполнения следующей задачи

«Обучите модель LDA с помощью одного большого документа и отслеживайте 10 скрытых тем. Получив новый, невидимый документ, спрогнозируйте распределение вероятностей 10 скрытых тем».

Согласно руководству здесь: http://radimrehurek.com/gensim/tut2.html, это кажется возможным для документа в корпусе, но мне интересно, возможно ли это для невидимого документа.

Спасибо!

Jenna Kwon 02.12.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

Из опубликованной вами документации похоже, что вы можете тренировать свою модель следующим образом:

>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)

А затем с этой страницы похоже, что вы можете применить свою модель к «невидимому документу. " нравится:

>>> doc_lda = model[doc_bow]

Где doc_bow - это набор слов, созданный doc2bow.

evan.oman 02.12.2016

comment

Не могли бы вы объяснить, что такое doc_lda и как его можно анализировать? - Tolga; 22.03.2019

comment

doc_lda также может называться 'a' или 'b', он возвращает распределение тем для doc_bow следующим образом: [(0, 0,33), (1, 0,33), (2, 0,33)], поэтому за темой следует процент, который комментарий / документ / текстовые данные относятся к этой теме - Sara; 24.04.2019

comment

Как я могу извлечь название темы из упомянутого выше комментария. И если у меня есть текст типа text = Дни светлые и хорошие. А в моей предопределенной модели lda есть 10 тем. Рассчитывает ли тематическая вероятность всех слов? На данный момент я предполагаю, что текст, который я упомянул, находится после стоп-слова stemmin и т. Д. - Naveen Srikanth; 08.04.2020

Расчет тематического распределения невидимого документа на GenSim

Ответы (1)

Похожие вопросы