сделать тематическое моделирование Маллета стабильным

Я использую инструмент моделирования тем молотка, и мне трудно сделать его стабильным (темы, которые я получаю, не кажутся очень логичными).

Я работал с вашим учебником и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet, и у меня есть несколько вопросов по этому поводу:

  1. Есть ли какие-нибудь передовые практики, чтобы заставить эту модель работать? Кроме команды optimize (какое число для этого подходит)? Какое число подходит для команды итераций?
  2. Я импортирую свои данные с помощью команды import dir. В этом каталоге находятся мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
  3. Читал про модель hLDA. Когда я попытался запустить его, я увидел, что единственный вывод - это не очень понятный вывод state.txt. Я ожидаю результатов, подобных модели тематического моделирования (topic_keys.txt, doc_topics.txt), как я могу их получить?
  4. Когда мне следует использовать hLDA, а не тематическое моделирование?

Спасибо большое за вашу помощь!


person Daniel Juravski    schedule 07.04.2019    source источник


Ответы (1)


Некоторые ссылки на передовой опыт в тематическом моделировании: Уход и поддержка тематических моделей с Джорданом Бойд-Грабером и Дэйвом Ньюманом и прикладным тематическим моделированием с Джордан Бойд-Грабер и Юнин Ху.

Для оптимизации гиперпараметров --optimize-interval 20 --optimize-burn-in 50 должно быть хорошо, похоже, он не очень чувствителен к конкретным значениям. Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, которое, вероятно, нормально», а не как конкретное значение.

Если вы читаете отдельные документы из файлов в каталоге, строки не имеют значения. Если до удаления стоп-слова документы длиннее 1000 токенов, подумайте о том, чтобы разбить их на более мелкие сегменты.

hLDA включен только потому, что люди, кажется, хотят этого, я не рекомендую его ни для каких целей.

person David Mimno    schedule 12.04.2019