Вопросы по теме 'text-analysis'
Рассчитать коэффициент корреляции между словами?
Для программы анализа текста я хотел бы проанализировать совпадение определенных слов в тексте. Например, я хотел бы видеть, что, например. слова «Барак» и «Обама» чаще встречаются вместе (т.е. имеют положительную корреляцию), чем другие.
Это не...
7188 просмотров
schedule
22.04.2022
Быстрый способ поиска на основе небуквального сравнения
Быстрый способ поиска на основе небуквального сравнения
Я разрабатываю небольшой поиск по довольно большим наборам данных, в основном по всем строкам. Отношения между полями таблицы достаточно просты, хотя сравнение не должно быть буквальным. т....
140 просмотров
schedule
29.07.2022
Существуют ли какие-либо эффективные библиотеки Python для динамических тематических моделей, предпочтительно расширяющие Gensim?
Я пытаюсь смоделировать данные потока твиттера с помощью тематических моделей. Gensim, будучи простым в использовании решением, впечатляет своей простотой. Он имеет действительно онлайн-реализацию для LSI, но не для LDA. Для изменяющегося потока...
3593 просмотров
schedule
10.05.2023
Elasticsearch — Nest — отсутствует первый символ
Я использую клиент Nest против Elasticsearch. Я использую анализатор индекса n-грамм. Я замечаю какое-то странное поведение - когда я ищу слова с самого начала, я не получаю никаких результатов. Однако, если я ищу со второго символа, он работает...
475 просмотров
schedule
21.08.2022
Сокращение времени парсера Stanford за счет сокращения предложения
Мы уже знаем, что время синтаксического анализа Stanford Parser увеличивается по мере увеличения длины предложения. Я заинтересован в поиске творческих способов сокращения предложения таким образом, чтобы сократить время синтаксического анализа без...
124 просмотров
schedule
18.06.2022
Ошибка при установке Open GRM thrax
Я уже установил Open Fst в Ubuntu, и он отлично работает. Теперь я пытаюсь установить Open GRM thrax. Я пытался установить 2 разные версии thrax.
Тракс версия 1.1.0:
thraxOpenGrm/thrax-1.1.0$ ./configure
ниже ошибка, которую я получаю....
2376 просмотров
schedule
07.05.2024
Разделение документа из tm Corpus на несколько документов
Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я...
2621 просмотров
schedule
29.03.2022
Анализ текста R с помощью quanteda
У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой код R.
# Load the relevant dictionary (relevant for analysis)
liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")...
3324 просмотров
schedule
12.02.2022
Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров
schedule
23.11.2023
Rapidminer-TF-IDF из набора данных csv
Мне нужно рассчитать tf-idf двух столбцов CSV-файла. Должен ли я преобразовывать строки в текстовые файлы? или есть ли способ рассчитать tf-idf из csv.
как я могу рассчитать tfidf столбцов файла csv.
225 просмотров
schedule
23.03.2023
Как объединить функции TFIDF с другими функциями
У меня классическая проблема НЛП, я должен классифицировать новости как фальшивые или настоящие.
Я создал два набора функций:
A) Частота биграммного члена - обратная частота документа
Б) Приблизительно 20 функций, связанных с каждым...
6192 просмотров
schedule
02.03.2022