Я пытаюсь использовать Mallet
буквально без опыта моделирования тем и т. д. Моя цель — получить N темы из M документов, которые у меня есть прямо сейчас, классифицировать каждый документ с одной или несколькими темами (документ 1 = тема 1; документ 2 = тема 2 и, возможно, тема 3) и классифицировать с помощью этих результатов новый документ в будущем. Сначала я пытался использовать для этого bigartm
, но ничего не нашел для классификации в этой программе, только тематическое моделирование. Итак, Маллет, я создал файл corpus.txt следующего формата:
Doc.num. \t(tab) Label(actualy 1 everywhere) \t Text
1 1 some text of document to classify
2 1 another doc text
...
На данный момент я могу получить темы из этого файла после преобразования его в формат последовательности функций для молотка с помощью
bin/mallet import-file --input corpus.txt --output foo.mallet--keep-sequence
а потом получать от него темы
bin/mallet train-topics --input foo.mallet --output-state state.gz --output-topic-keys topic-keys.txt --output-doc-topics doc-topics.txt
Итак, общий вопрос теперь заключается в том, что использовать в молотке (классификаторе поездов?), чтобы назначить каждый существующий документ теме, которую я нашел, и сохранить этот результат, чтобы применить его к будущему документу, который я хочу классифицировать по этим темам.
Спасибо