Вопросы по теме 'text-analysis'

Рассчитать коэффициент корреляции между словами?
Для программы анализа текста я хотел бы проанализировать совпадение определенных слов в тексте. Например, я хотел бы видеть, что, например. слова «Барак» и «Обама» чаще встречаются вместе (т.е. имеют положительную корреляцию), чем другие. Это не...
7188 просмотров

Быстрый способ поиска на основе небуквального сравнения
Быстрый способ поиска на основе небуквального сравнения Я разрабатываю небольшой поиск по довольно большим наборам данных, в основном по всем строкам. Отношения между полями таблицы достаточно просты, хотя сравнение не должно быть буквальным. т....
140 просмотров

Существуют ли какие-либо эффективные библиотеки Python для динамических тематических моделей, предпочтительно расширяющие Gensim?
Я пытаюсь смоделировать данные потока твиттера с помощью тематических моделей. Gensim, будучи простым в использовании решением, впечатляет своей простотой. Он имеет действительно онлайн-реализацию для LSI, но не для LDA. Для изменяющегося потока...
3593 просмотров

Elasticsearch — Nest — отсутствует первый символ
Я использую клиент Nest против Elasticsearch. Я использую анализатор индекса n-грамм. Я замечаю какое-то странное поведение - когда я ищу слова с самого начала, я не получаю никаких результатов. Однако, если я ищу со второго символа, он работает...
475 просмотров
schedule 21.08.2022

Сокращение времени парсера Stanford за счет сокращения предложения
Мы уже знаем, что время синтаксического анализа Stanford Parser увеличивается по мере увеличения длины предложения. Я заинтересован в поиске творческих способов сокращения предложения таким образом, чтобы сократить время синтаксического анализа без...
124 просмотров

Ошибка при установке Open GRM thrax
Я уже установил Open Fst в Ubuntu, и он отлично работает. Теперь я пытаюсь установить Open GRM thrax. Я пытался установить 2 разные версии thrax. Тракс версия 1.1.0: thraxOpenGrm/thrax-1.1.0$ ./configure ниже ошибка, которую я получаю....
2376 просмотров

Разделение документа из tm Corpus на несколько документов
Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я...
2621 просмотров
schedule 29.03.2022

Анализ текста R с помощью quanteda
У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой код R. # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")...
3324 просмотров
schedule 12.02.2022

Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров

Rapidminer-TF-IDF из набора данных csv
Мне нужно рассчитать tf-idf двух столбцов CSV-файла. Должен ли я преобразовывать строки в текстовые файлы? или есть ли способ рассчитать tf-idf из csv. как я могу рассчитать tfidf столбцов файла csv.
225 просмотров

Как объединить функции TFIDF с другими функциями
У меня классическая проблема НЛП, я должен классифицировать новости как фальшивые или настоящие. Я создал два набора функций: A) Частота биграммного члена - обратная частота документа Б) Приблизительно 20 функций, связанных с каждым...
6192 просмотров
schedule 02.03.2022