Вопросы по теме 'quanteda'

Анализ текста R с помощью quanteda
У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой код R. # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")...
3324 просмотров
schedule 12.02.2022

Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров

Определение вывода функции Quanteda findSequence - пакет R для анализа текста
быстрый вопрос: Пакет анализа текста R Quanteda - findSequence дает следующий результат, и я не могу найти документацию по некоторым столбцам: seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len...
85 просмотров
schedule 21.04.2024

Манипулировать (переименовывать и перекомбинировать) функции в dfm (кванта)
Я хотел бы манипулировать (переименовывать и комбинировать) функции в dfm, как действовать? Причина в следующем: я хочу использовать другой алгоритм стемминга, нежели стеммер Портера, реализованный в Quanteda (алгоритм kpss, вызываемый через...
276 просмотров
schedule 27.02.2023

ТМ, Quanteda, text2vec. Получить строки слева от термина в списке слов в соответствии с шаблоном регулярного выражения
Я хотел бы проанализировать большую папку текстов на наличие имен, адресов и телефонов на нескольких языках. Им обычно предшествуют слова «Адрес», «Номер телефона», «Имя», «Компания», «Больница», «Доставщик». У меня будет словарь этих слов. Мне...
163 просмотров
schedule 15.01.2023

Quanteda: самый быстрый способ заменить токены леммой из словаря?
Есть ли более быстрая альтернатива R quanteda :: tokens_lookup ()? Я использую tokens () в пакете quanteda R для токенизации фрейма данных с 2000 документами. В каждом документе от 50 до 600 слов. На моем ПК это занимает пару секунд (Microsoft R...
2380 просмотров
schedule 18.02.2022

Какие методы я могу использовать для вычисления корреляции между словами в Quanteda?
Мой вопрос является продолжением этого . После очистки моих текстовых данных и визуализации их с помощью wordcloud я хочу увидеть, какие слова коррелируют друг с другом. Вот проблема: quanteda имеет функцию textstat_simil , но написано...
248 просмотров
schedule 22.09.2023

Есть ли функция R для поиска ключевых слов на определенном «расстоянии до слова»?
Что мне нужно, так это функция для поиска слов в пределах определенного «расстояния до слова». Слова «сумка» и «инструмент» интересны в предложении «У него в машине была сумка с инструментами». С помощью функции Quanteda kwic я могу найти «сумку»...
108 просмотров
schedule 15.09.2022

Как сделать распознавание именованных сущностей (NER) с помощью quANTA?
Наличие фрейма данных с текстом df = data.frame(id=c(1,2), text = c("My best friend John works and Google", "However he would like to work at Amazon as he likes to use python and stay at Canada") Без предварительной обработки Как можно...
814 просмотров
schedule 05.03.2022

Как найти лучшие меры для lda
Использование примера для lda из пакета Quanteda require(quanteda) require(quanteda.corpora) require(lubridate) require(topicmodels) corp_news <- download('data_corpus_guardian') corp_news_subset <- corpus_subset(corp_news, 'date' >=...
132 просмотров
schedule 21.08.2023

Выполнение анализа временных рядов квантовых токенов
Я сталкиваюсь с проблемами, пытаясь найти способ связать информацию о времени с каждым отдельным токеном в quanteda. Я хочу провести анализ временного ряда для списка из 25 различных токенов. Я знаю, что могу просто найти индекс каждого...
199 просмотров
schedule 27.03.2022

Как я могу сохранить словарь quanteda в виде файла yaml?
Я создал собственный словарь, используя функцию словаря из пакета Quanteda в R, и я хотел бы сохранить его как файл YAML для использования в будущем. На данный момент у меня есть сценарий R, в котором я создал словарь и сохранил словарь как объект...
85 просмотров
schedule 23.06.2022

Как объединить результаты анализа тональности (dfm) с исходным объектом readtext в Quanteda?
Я использовал базовую tokens_lookup функцию Quanteda со словарем настроений молодого Сороки, чтобы подсчитать количество положительных и отрицательных слов в твитах политиков. Как только я получу результаты, могу ли я добавить эти столбцы обратно...
126 просмотров
schedule 09.03.2022

Установка настраиваемых параметров в stm
Используя этот вариант: library(quanteda) dfmat_ire <- dfm(data_corpus_irishbudget2010) library("quanteda.textmodels") quant_dfm <- dfm(data_corpus_irishbudget2010, remove_punct = TRUE, remove_numbers = TRUE,...
75 просмотров
schedule 06.09.2022

Как использовать регулярное выражение с kwic, чтобы получить все совпадения?
Кажется, я не могу получить желаемый результат, используя qwic quanteda. Вот что я пробовал: library(quanteda) library(tidyverse) Учитывая этот текст text <- "This is a phone number: 222-222-2222. Here's another phone...
93 просмотров
schedule 07.07.2023

как установить цель в функции textstat_keyness Quanteda, связанной с датой
Он работает как target = year(dfmat_news$datee) >= 2016 tstat_key <- textstat_keyness(hr_dfm, measure = "chi2",sort = TRUE, correction = c("default"), target =...
51 просмотров
schedule 11.03.2024

quanteda: удалить теги (#, @) и URL-адрес в строке
Рассмотрим следующую строку: txt <- ("Viele Dank für das Feedback + die Verbesserungsvorschläge! :) http://testurl.com/5lhk5p #Greenwashing #PR #Vattenfal") Я создаю dfm (Создайте матрицу функций документа) и предварительно...
173 просмотров
schedule 08.05.2023

Обнаружить одно и то же слово в токенах ngram и удалить их
Как в dfm можно обнаружить в нграмме одни и те же слова, т.е. hello_hello, text_text и удалить их из dfm?
41 просмотров
schedule 23.07.2022

Есть ли простой способ преобразовать объект-токен в документы в quanteda?
Я пытаюсь очистить некоторые текстовые данные, а после токенизации и, например, удаляя пунктуацию, я хочу, чтобы я преобразовал объект токена в вектор / фрейм данных / корпус. Мой текущий подход: library(quanteda) library(dplyr) raw <-...
33 просмотров
schedule 06.04.2022

Quanteda объединяет униграммы и биграммы
Я хочу поэкспериментировать, если наличие униграмм и биграмм в одном DFM улучшит мою классификацию документов. Я хотел бы создать как униграммы, так и биграммы в одном DFM. Оттуда я могу затем получить свой взвешенный DFM TF-IDF с учетом как...
46 просмотров
schedule 24.02.2023