Вопросы по теме 'lda'

LDA Mahout только одна тема
Я пытаюсь следовать примеру использования LDA для данных Reuters, как указано в книге Mahout In Action. Однако, независимо от того, сколько раз я запускаю его, я всегда получаю только одну тему. Я выполнил команду, как указано: mahout lda -i...
603 просмотров
schedule 18.04.2022

Вывод, помеченный LDA/pLDA [Topic Modeling Toolbox]
Я пытался выполнить код для вывода из обученной помеченной модели LDA и pLDA с использованием набора инструментов TMT (группа Stanford nlp). Я просмотрел примеры, представленные по следующим ссылкам: http://nlp.stanford.edu/software/tmt/tmt-0.3/...
1690 просмотров
schedule 16.05.2022

Линейный дискриминантный анализ LDA
У меня есть большой набор многомерных данных (240 измерений). Я новичок в интеллектуальном анализе данных и хочу применить линейный дискриминантный анализ с помощью MATLAB. Тем не менее, я видел, что в Интернете объясняется множество функций, но я...
14796 просмотров
schedule 29.08.2023

Как запустить lda с помощью файлов jar в mahout-distribution-0.7
У меня есть несколько файлов jar, а именно mahout-integration-0.7.jar, mahout-math-0.7.jar, mahout-core-0.7.jar, mahout-core-0.7-job.jar, mahout-examples-0.7.jar и mahout-примеры-0.7-job.jar. Как мне запустить LDA, вызвав определенный файл jar,...
363 просмотров
schedule 13.04.2024

LDA в питоне с использованием sklearn
Я пытаюсь реализовать алгоритм LDA с помощью sklearn в python. Код: import numpy as np from sklearn.lda import LDA X = np.array ([[0.000000, 0.000000, 0.000000, 0.000000, 0.001550, 0.000000, 0.000000, 0.000000, 0.000000,...
1320 просмотров
schedule 21.06.2022

Создание тематических моделей по частотным спискам в R
Я использовал пакет topicmodels для создания моделей LDA в R. require(tm) require(topicmodels) textvector <- c("this is one sentence", "this is another one", "a third sentence appears") #and...
444 просмотров
schedule 18.10.2023

Существуют ли какие-либо эффективные библиотеки Python для динамических тематических моделей, предпочтительно расширяющие Gensim?
Я пытаюсь смоделировать данные потока твиттера с помощью тематических моделей. Gensim, будучи простым в использовании решением, впечатляет своей простотой. Он имеет действительно онлайн-реализацию для LSI, но не для LDA. Для изменяющегося потока...
3593 просмотров

tf-idf и LDA в Google App Engine
У меня есть код Python, который использует библиотеки sklearn и gensim для tf-idf и LDA (скрытое распределение Дирихле). Теперь, когда я хочу перейти на механизм приложений Google, я не могу использовать ни одну из этих двух библиотек, потому что они...
483 просмотров

Сходство между результатами LDA по двум различным темам?
если мы выберем 20 тем в LDA, а затем, если мы выберем 30 тем. Итак, мой вопрос: будут ли эти результаты пересекаться с этими 20 темами и давать аналогичные результаты?
194 просмотров
schedule 10.07.2022

R LDAvis, определяющие документы для каждой темы
Это вопрос о LDA и приложении LDAvis в R. Поскольку я впервые использую этот пакет, я был бы признателен за любую помощь, которая могла бы помочь в моем исследовании. Я хочу иметь возможность просматривать документы, которые были определены каждой...
1518 просмотров
schedule 10.07.2022

пропорции темы в моем корпусе?
Спасибо, что прочитали и нашли время подумать и ответить на это. Я использую оболочку Gensim для Mallet ( ldamallet.py ), и это работает как шарм. Мне нужно получить пропорции темы для моего корпуса (по всем моим документам), и я не знаю, как это...
283 просмотров
schedule 10.08.2023

Те же параметры LDA и ввод данных, но у меня каждый раз разные темы?
Я использую LDA с фреймворком Spark MLlib. Чтобы определить количество тем, я попробовал: запустить модель LDA с увеличением количества тем, а затем найти наилучшее количество тем с максимальной логарифмической вероятностью. Но если я снова запущу...
390 просмотров
schedule 13.06.2022

LDA для тегов (gensim)
Я использую пакет Gensim для моделирования тем. Идея состоит в том, чтобы понять, какие темы указаны в тегах flickr. До сих пор я использую этот код (документ - это теги): texts = [[word for word in document.split(";") if word not in...
935 просмотров
schedule 31.08.2022

LDA интерпретация
Я использую пакет HMeasure, чтобы привлечь LDA к моему анализу кредитного риска. У меня есть 11000 наблюдений, и я выбрал возраст и доход для проведения анализа. Я не знаю точно, как интерпретировать результаты R LDA. Итак, я не знаю, выбрал ли я...
8809 просмотров
schedule 04.06.2024

фиктивные переменные каретки исключают цель
Как я могу использовать фиктивные переменные в каретке, не разрушая мою целевую переменную? set.seed(5) data <- ISLR::OJ data<-na.omit(data) dummies <- dummyVars( Purchase ~ ., data = data) data2 <- predict(dummies, newdata = data)...
2321 просмотров
schedule 29.05.2023

Расчет тематического распределения невидимого документа на GenSim
Я пытаюсь использовать модуль LDA GenSim для выполнения следующей задачи «Обучите модель LDA с помощью одного большого документа и отслеживайте 10 скрытых тем. Получив новый, невидимый документ, спрогнозируйте распределение вероятностей 10 скрытых...
2102 просмотров
schedule 14.01.2023

Сбой процесса LDA в PySpark из-за увеличения максимального параметра итерации
Я использую LDA для ~300 тыс. документов, используя 4 экземпляра r3.4xlarge на Amazon EMR. С темами k=800 , мини-пакетом fraction = 0.2 и maxIter=20 (или 10) задание завершается, но если я увеличу maxIter, например, до 30, задание завершится...
129 просмотров
schedule 17.12.2022

Используйте информацию о моделировании тем из LDA в качестве функций для выполнения классификации текста с помощью SVM.
Я хочу выполнить классификацию текста, используя информацию о моделировании темы в виде функций, которые передаются классификатору svm. Поэтому мне было интересно, как можно генерировать функции тематического моделирования, выполняя LDA как для...
1431 просмотров
schedule 17.02.2024

Используйте Gensim или другие пакеты LDA Python для использования обученной модели LDA от Mallet
У меня есть модель LDA, обученная через Mallet на Java. Из модели Mallet LDA генерируются три файла, которые позволяют мне запускать модель из файлов и делать вывод о распределении тем для нового текста. Теперь я хотел бы реализовать инструмент...
1024 просмотров
schedule 17.02.2022

Как установить параметры для выборки Гиббса
Я выполняю тематическое моделирование LDA на моем наборе данных твитов, собранных из нескольких учетных записей Twitter, который состоит из 9582 документов и 4144 терминов после предварительной обработки. Чтобы запустить функцию LDA, я должен...
362 просмотров
schedule 28.11.2023