Вопросы по теме 'quanteda'
Анализ текста R с помощью quanteda
У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой код R.
# Load the relevant dictionary (relevant for analysis)
liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")...
3324 просмотров
schedule
12.02.2022
Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров
schedule
23.11.2023
Определение вывода функции Quanteda findSequence - пакет R для анализа текста
быстрый вопрос:
Пакет анализа текста R Quanteda - findSequence дает следующий результат, и я не могу найти документацию по некоторым столбцам:
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len...
85 просмотров
schedule
21.04.2024
Манипулировать (переименовывать и перекомбинировать) функции в dfm (кванта)
Я хотел бы манипулировать (переименовывать и комбинировать) функции в dfm, как действовать?
Причина в следующем: я хочу использовать другой алгоритм стемминга, нежели стеммер Портера, реализованный в Quanteda (алгоритм kpss, вызываемый через...
276 просмотров
schedule
27.02.2023
ТМ, Quanteda, text2vec. Получить строки слева от термина в списке слов в соответствии с шаблоном регулярного выражения
Я хотел бы проанализировать большую папку текстов на наличие имен, адресов и телефонов на нескольких языках.
Им обычно предшествуют слова «Адрес», «Номер телефона», «Имя», «Компания», «Больница», «Доставщик». У меня будет словарь этих слов.
Мне...
163 просмотров
schedule
15.01.2023
Quanteda: самый быстрый способ заменить токены леммой из словаря?
Есть ли более быстрая альтернатива R quanteda :: tokens_lookup ()?
Я использую tokens () в пакете quanteda R для токенизации фрейма данных с 2000 документами. В каждом документе от 50 до 600 слов. На моем ПК это занимает пару секунд (Microsoft R...
2380 просмотров
schedule
18.02.2022
Какие методы я могу использовать для вычисления корреляции между словами в Quanteda?
Мой вопрос является продолжением этого .
После очистки моих текстовых данных и визуализации их с помощью wordcloud я хочу увидеть, какие слова коррелируют друг с другом. Вот проблема:
quanteda имеет функцию textstat_simil , но написано...
248 просмотров
schedule
22.09.2023
Есть ли функция R для поиска ключевых слов на определенном «расстоянии до слова»?
Что мне нужно, так это функция для поиска слов в пределах определенного «расстояния до слова». Слова «сумка» и «инструмент» интересны в предложении «У него в машине была сумка с инструментами».
С помощью функции Quanteda kwic я могу найти «сумку»...
108 просмотров
schedule
15.09.2022
Как сделать распознавание именованных сущностей (NER) с помощью quANTA?
Наличие фрейма данных с текстом
df = data.frame(id=c(1,2), text = c("My best friend John works and Google", "However he would like to work at Amazon as he likes to use python and stay at Canada")
Без предварительной обработки
Как можно...
814 просмотров
schedule
05.03.2022
Как найти лучшие меры для lda
Использование примера для lda из пакета Quanteda
require(quanteda)
require(quanteda.corpora)
require(lubridate)
require(topicmodels)
corp_news <- download('data_corpus_guardian')
corp_news_subset <- corpus_subset(corp_news, 'date' >=...
132 просмотров
schedule
21.08.2023
Выполнение анализа временных рядов квантовых токенов
Я сталкиваюсь с проблемами, пытаясь найти способ связать информацию о времени с каждым отдельным токеном в quanteda. Я хочу провести анализ временного ряда для списка из 25 различных токенов. Я знаю, что могу просто найти индекс каждого...
199 просмотров
schedule
27.03.2022
Как я могу сохранить словарь quanteda в виде файла yaml?
Я создал собственный словарь, используя функцию словаря из пакета Quanteda в R, и я хотел бы сохранить его как файл YAML для использования в будущем.
На данный момент у меня есть сценарий R, в котором я создал словарь и сохранил словарь как объект...
85 просмотров
schedule
23.06.2022
Как объединить результаты анализа тональности (dfm) с исходным объектом readtext в Quanteda?
Я использовал базовую tokens_lookup функцию Quanteda со словарем настроений молодого Сороки, чтобы подсчитать количество положительных и отрицательных слов в твитах политиков.
Как только я получу результаты, могу ли я добавить эти столбцы обратно...
126 просмотров
schedule
09.03.2022
Установка настраиваемых параметров в stm
Используя этот вариант:
library(quanteda)
dfmat_ire <- dfm(data_corpus_irishbudget2010)
library("quanteda.textmodels")
quant_dfm <- dfm(data_corpus_irishbudget2010,
remove_punct = TRUE, remove_numbers = TRUE,...
75 просмотров
schedule
06.09.2022
Как использовать регулярное выражение с kwic, чтобы получить все совпадения?
Кажется, я не могу получить желаемый результат, используя qwic quanteda. Вот что я пробовал:
library(quanteda)
library(tidyverse)
Учитывая этот текст
text <- "This is a phone number: 222-222-2222. Here's another phone...
93 просмотров
schedule
07.07.2023
как установить цель в функции textstat_keyness Quanteda, связанной с датой
Он работает как target = year(dfmat_news$datee) >= 2016
tstat_key <- textstat_keyness(hr_dfm,
measure = "chi2",sort = TRUE, correction = c("default"),
target =...
51 просмотров
schedule
11.03.2024
quanteda: удалить теги (#, @) и URL-адрес в строке
Рассмотрим следующую строку:
txt <- ("Viele Dank für das Feedback + die Verbesserungsvorschläge! :) http://testurl.com/5lhk5p #Greenwashing #PR #Vattenfal")
Я создаю dfm (Создайте матрицу функций документа) и предварительно...
173 просмотров
schedule
08.05.2023
Обнаружить одно и то же слово в токенах ngram и удалить их
Как в dfm можно обнаружить в нграмме одни и те же слова, т.е.
hello_hello, text_text
и удалить их из dfm?
41 просмотров
schedule
23.07.2022
Есть ли простой способ преобразовать объект-токен в документы в quanteda?
Я пытаюсь очистить некоторые текстовые данные, а после токенизации и, например, удаляя пунктуацию, я хочу, чтобы я преобразовал объект токена в вектор / фрейм данных / корпус.
Мой текущий подход:
library(quanteda)
library(dplyr)
raw <-...
33 просмотров
schedule
06.04.2022
Quanteda объединяет униграммы и биграммы
Я хочу поэкспериментировать, если наличие униграмм и биграмм в одном DFM улучшит мою классификацию документов. Я хотел бы создать как униграммы, так и биграммы в одном DFM. Оттуда я могу затем получить свой взвешенный DFM TF-IDF с учетом как...
46 просмотров
schedule
24.02.2023