Mallet создает темы с самыми популярными ключевыми словами. Ключевые слова уникальны для одной темы. Есть ли автоматический способ выбрать определенное слово или несколько слов из ключевых слов темы в качестве маркировки темы. Например, из 500 статей получается 20 тем. Каждая тема содержит 20 слов. Одна из тем:
идентификатор темы 12, вес 0,05879, (ключевые слова) нефть энергия газ энергия вода электричество атомная промышленность море климат цены цены уголь выбросы углерода год топливо экологические зеленые годы
Кажется, у меня могут быть разные интерпретации темы. Например,
- энергетические проблемы из-за сжигания газа, нефти или топлива
- генерация энергии воды для защиты окружающей среды
- цены на нефть меняются из-за изменения климата
- Выбросы углерода вызывают экологические проблемы
- ...
Обозначение одним словом может быть: энергия, окружающая среда, нефть, выбросы углерода, зеленая энергия...
Есть ли способ сгенерировать только одно или два слова для представления этой темы вместо того, чтобы субъективно и произвольно комбинировать эти слова?
Кажется, самые важные слова определяются частотой терминов в алгоритме ключевых слов. Маллет генерирует уникальные слова для каждой темы.
Мой вопрос: есть ли способ автоматически выбрать одно наиболее репрезентативное слово или два слова в качестве маркировки темы?
Я новичок в тематическом моделировании, вы мне поможете?
Спасибо