пустые темы в моделировании тем Mallet LDA

Когда я использую Mallet LDA с большим количеством тем (например, T> 300), я получаю темы с пустыми тематическими словами (нет ни одного тематического слова).

Почему так происходит? Это ошибка в Mallet?

Я использую молоток 2.0.7 на машине с Ubuntu 14.04.

ИЗМЕНИТЬ

mallet-2.0.7/bin/mallet import-dir --input $path/$posts --output $outputDir/$posts.mallet \
        --keep-sequence --remove-stopwords --token-regex "[\\p{Alpha}_]+"  #--save-text-in-source

  mallet-2.0.7/bin/mallet train-topics --input $outputDir/$posts.mallet \
        --num-topics $topics --output-state $outputDir/topic-state.gz \
        --output-topic-keys $outputDir/topics.txt --output-doc-topics $outputDir/document_composition.txt \
        --topic-word-weights-file $outputDir/topic_word_weights.txt --num-top-words $numtopwords \
        --optimize-interval 10 --word-topic-counts-file $outputDir/topic_counts.txt

Что касается деталей корпуса, то он содержит около 1000 файлов. каждый файл может содержать одно или несколько предложений. Корпус довольно маленький, размером около 1 МБ.


person samsamara    schedule 17.11.2015    source источник
comment
Можете ли вы дать полную командную строку и рассказать нам что-нибудь о своем корпусе?   -  person jk - Reinstate Monica    schedule 17.11.2015
comment
пожалуйста, посмотрите правки! Благодарность   -  person samsamara    schedule 17.11.2015
comment
Я предполагаю, что для размера корпуса слишком много тем.   -  person SJB    schedule 26.11.2015
comment
да, наверное, так, как было сказано в ответе.   -  person samsamara    schedule 27.11.2015


Ответы (1)


Ответ, который я получил от Дэвида Мимно:

Обычно это указывает на то, что у вас большое количество тем по сравнению с размером корпуса. Маллет использует выборку Гиббса, поэтому темы основаны на фактическом количестве токенов, назначенных теме. В этих "пустых" темах как таковых нет ничего плохого, если вы знаете, что им нельзя слишком доверять.

person samsamara    schedule 26.11.2015