Как автоматически генерировать одно или два слова для представления темы?

Mallet создает темы с самыми популярными ключевыми словами. Ключевые слова уникальны для одной темы. Есть ли автоматический способ выбрать определенное слово или несколько слов из ключевых слов темы в качестве маркировки темы. Например, из 500 статей получается 20 тем. Каждая тема содержит 20 слов. Одна из тем:

идентификатор темы 12, вес 0,05879, (ключевые слова) нефть энергия газ энергия вода электричество атомная промышленность море климат цены цены уголь выбросы углерода год топливо экологические зеленые годы

Кажется, у меня могут быть разные интерпретации темы. Например,

  1. энергетические проблемы из-за сжигания газа, нефти или топлива
  2. генерация энергии воды для защиты окружающей среды
  3. цены на нефть меняются из-за изменения климата
  4. Выбросы углерода вызывают экологические проблемы
  5. ...

Обозначение одним словом может быть: энергия, окружающая среда, нефть, выбросы углерода, зеленая энергия...

Есть ли способ сгенерировать только одно или два слова для представления этой темы вместо того, чтобы субъективно и произвольно комбинировать эти слова?

Кажется, самые важные слова определяются частотой терминов в алгоритме ключевых слов. Маллет генерирует уникальные слова для каждой темы.

Мой вопрос: есть ли способ автоматически выбрать одно наиболее репрезентативное слово или два слова в качестве маркировки темы?

Я новичок в тематическом моделировании, вы мне поможете?

Спасибо


person Dylan    schedule 14.05.2019    source источник
comment
вы пробовали это github.com/RaRe-Technologies/gensim   -  person Yash Kumar Atri    schedule 14.05.2019


Ответы (1)


Существуют методы автоматической маркировки тем, но лично я считаю, что они недостаточно надежны, чтобы не вводить в заблуждение. Как вы заметили, часто существует довольно много способов описать семантическое содержание, определенное темой, и многие темы не могут быть легко разрешены одним ключевым словом или фразой.

На практике автоматически извлекаемые темы часто объединяют несколько связанных тем (здесь углеводородная промышленность и изменение климата) или представляют отдельные аспекты более крупных тем (например, могут быть две темы с большим количеством слов об образовании и классах, но одна из них — это только студенты, а другие к-12). Часто бывает трудно понять, о чем тема на самом деле, не прочитав документы, широко представленные в этой теме.

Во многих случаях есть довольно очевидный «тег» (например, «нефть» в данном случае), но если вы намекаете пользователям, что тема представляет определенную концепцию, вы почти наверняка обнаружите случаи, когда это не совсем правильно. смысл.

person David Mimno    schedule 15.05.2019
comment
Я очень рад, что на этот вопрос ответил один из дизайнеров Mallet, Дэвид Мимно. Большое спасибо. - person Dylan; 16.05.2019