Я использую инструмент моделирования тем молотка, и мне трудно сделать его стабильным (темы, которые я получаю, не кажутся очень логичными).
Я работал с вашим учебником и этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet, и у меня есть несколько вопросов по этому поводу:
- Есть ли какие-нибудь передовые практики, чтобы заставить эту модель работать? Кроме команды optimize (какое число для этого подходит)? Какое число подходит для команды итераций?
- Я импортирую свои данные с помощью команды import dir. В этом каталоге находятся мои файлы. Имеет ли значение, содержат ли эти файлы текст с новыми строками или просто очень длинную строку?
- Читал про модель hLDA. Когда я попытался запустить его, я увидел, что единственный вывод - это не очень понятный вывод state.txt. Я ожидаю результатов, подобных модели тематического моделирования (topic_keys.txt, doc_topics.txt), как я могу их получить?
- Когда мне следует использовать hLDA, а не тематическое моделирование?
Спасибо большое за вашу помощь!