сделать тематическое моделирование Маллета стабильным

Я использую инструмент моделирования тем молотка, и мне трудно сделать его стабильным (темы, которые я получаю, не кажутся очень логичными).

Я работал с вашим учебником и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet, и у меня есть несколько вопросов по этому поводу:

Есть ли какие-нибудь передовые практики, чтобы заставить эту модель работать? Кроме команды optimize (какое число для этого подходит)? Какое число подходит для команды итераций?
Я импортирую свои данные с помощью команды import dir. В этом каталоге находятся мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
Читал про модель hLDA. Когда я попытался запустить его, я увидел, что единственный вывод - это не очень понятный вывод state.txt. Я ожидаю результатов, подобных модели тематического моделирования (topic_keys.txt, doc_topics.txt), как я могу их получить?
Когда мне следует использовать hLDA, а не тематическое моделирование?

Спасибо большое за вашу помощь!

nlp topic-modeling mallet

Daniel Juravski 07.04.2019 источник

Ответы (1)

arrow_upward
1
arrow_downward

Некоторые ссылки на передовой опыт в тематическом моделировании: Уход и поддержка тематических моделей с Джорданом Бойд-Грабером и Дэйвом Ньюманом и прикладным тематическим моделированием с Джордан Бойд-Грабер и Юнин Ху.

Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50 должно быть хорошо, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, которое, вероятно, нормально», а не как конкретное значение.

Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если до удаления стоп-слова документы длиннее 1000 токенов, подумайте о том, чтобы разбить их на более мелкие сегменты.

hLDA включен только потому, что люди, кажется, хотят этого, я не рекомендую его ни для каких целей.

David Mimno 12.04.2019

сделать тематическое моделирование Маллета стабильным

Ответы (1)

Похожие вопросы