Распределение тем во времени с LDA

Моя цель — определить темы твитов и визуализировать, как распределение тем менялось с течением времени. Насколько я знаю, лучше всего это сделать с помощью пакета stm, но у меня есть некоторые проблемы с ним. Итак, мой единственный вариант - сделать простой LDA.

Основываясь на доле тем для каждого из твитов, я суммировал доли тем за год и сравнил долю каждой темы с общей суммой за каждый год (так же, как это делается здесь https://towardsdatascience.com)./thats-mental-using-lda-topic-modeling-to-Investigate-the-discourse-on-mental-health-over-time-11da252259c3). Окончательная визуализация выглядит примерно так: темы с течением времени

Мой вопрос: можно ли визуализировать темы с течением времени с помощью LDA, какой смысл делать это в STM? Есть ли важные отличия?


person Olyalya    schedule 08.05.2021    source источник


Ответы (1)


Апостериорный анализ — прекрасный способ измерить распространенность темы с течением времени. LDA не изучает явно параметры, представляющие связь между годами и темами, но, как вы обнаружили, это не означает, что связи нет.

LDA часто плохо работает с короткими документами, такими как твиты. Вы также можете попробовать k-means.

STM полезен, если вы хотите аргументировать взаимосвязь так же, как и с любой другой регрессионной моделью. Преимущество будет заключаться в том, что вы можете получить темы, которые больше соответствуют вашим ковариатам, но обычно в этом нет необходимости.

Визуально мне действительно не нравятся потоковые диаграммы для результатов темы с течением времени. Например, из-за всплеска искусства в 2000 году вы не можете сказать, изменились ли какие-либо другие темы в этом году, потому что все они отодвинуты в сторону сверху. Предоставление каждой теме собственной диаграммы с областями значительно упрощает просмотр отдельных тенденций.

person David Mimno    schedule 10.05.2021
comment
Большое тебе спасибо! Может быть, вы знаете, как сделать эти графики? У меня есть несколько графиков, которые я сделал с помощью пакета dfrtopics так же, как это было сделано здесь (stackoverflow.com/questions/48764778/). Однако с помощью этой функции (topic_series) большинство тем имеют низкую долю в начале периода. Я предполагаю, что это потому, что тогда было мало твитов. Итак, эти графики довольно запутанны. - person Olyalya; 11.05.2021