Существуют ли какие-либо эффективные библиотеки Python для динамических тематических моделей, предпочтительно расширяющие Gensim?

Я пытаюсь смоделировать данные потока твиттера с помощью тематических моделей. Gensim, будучи простым в использовании решением, впечатляет своей простотой. Он имеет действительно онлайн-реализацию для LSI, но не для LDA. Для изменяющегося потока контента, такого как твиттер, идеально подходят динамические тематические модели. Есть ли способ или даже хак - реализация или даже стратегия, с помощью которой я могу использовать Gensim для этой цели?

Существуют ли какие-либо другие реализации Python, которые происходят (предпочтительно) от Gensim или независимы? Я предпочитаю python, так как хочу начать как можно скорее, но если есть оптимальное решение с некоторой работой, пожалуйста, укажите его.

Спасибо.


person Ravi Karan    schedule 18.03.2014    source источник


Ответы (3)


Gensim (http://radimrehurek.com/gensim/models/dtmmodel.html) имеет оболочка python для ориг. код С++.

person Daki    schedule 31.12.2014

Оболочка DTM в Gensim работает, но на данный момент ни одна документация не является полной. Что касается Gensim, самое полезное, на что стоит обратить внимание, это пример DTM спрятан в docs/notebooks. Это показывает, как должны выглядеть все входные переменные. Несколько замечаний:

  • модель DTM перемещена в gensim.models.wrappers.dtmmodel
  • initialize_lda=True должен быть установлен из-за ошибки в коде DTM (в будущем это будет значение по умолчанию -- PR #676)

Вам также понадобится работающая скомпилированная версия самого DTM (вы указываете путь к этому исполняемому файлу). Вы можете попробовать использовать подходящий исполняемый файл из репозитория github, но если это не поможет t вам, вероятно, потребуется скомпилировать исходный код, запустив включенный файл makefile.

person snl    schedule 02.05.2016

Поговорив с Дэвидом Блеем и Джоном Лафферти именно об этом, ответ прямо сейчас — нет, не существует.

реализация DTM Шона Герриша работает с задокументированной утечкой памяти, но работает с управляемыми коллекциями.

person gerowam    schedule 23.04.2014
comment
Спасибо за ваш ответ. Эта реализация написана на C++, на нее прямо ссылается страница Blei, которая на сегодняшний день является единственной одобренной/зрелой реализацией, с которой я мог столкнуться. Я все еще ищу реализацию на Python. - person Ravi Karan; 25.04.2014