Статьи по теме quanteda

Вопросы по теме 'quanteda'

У меня есть набор данных (сообщения в Facebook) (через netvizz), и я использую пакет quanteda в R. Вот мой код R. # Load the relevant dictionary (relevant for analysis) liwcdict <- dictionary(file = "D:/LIWC2001_English.dic", format = "LIWC")...

3324 просмотров

r text-mining quanteda text-analysis

12.02.2022

Пошаговое создание dfm с помощью quanteda

Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...

7174 просмотров

r quanteda term-document-matrix text-analysis

23.11.2023

Определение вывода функции Quanteda findSequence - пакет R для анализа текста

быстрый вопрос: Пакет анализа текста R Quanteda - findSequence дает следующий результат, и я не могу найти документацию по некоторым столбцам: seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len...

85 просмотров

r quanteda

21.04.2024

Манипулировать (переименовывать и перекомбинировать) функции в dfm (кванта)

Я хотел бы манипулировать (переименовывать и комбинировать) функции в dfm, как действовать? Причина в следующем: я хочу использовать другой алгоритм стемминга, нежели стеммер Портера, реализованный в Quanteda (алгоритм kpss, вызываемый через...

276 просмотров

r quanteda

27.02.2023

ТМ, Quanteda, text2vec. Получить строки слева от термина в списке слов в соответствии с шаблоном регулярного выражения

Я хотел бы проанализировать большую папку текстов на наличие имен, адресов и телефонов на нескольких языках. Им обычно предшествуют слова «Адрес», «Номер телефона», «Имя», «Компания», «Больница», «Доставщик». У меня будет словарь этих слов. Мне...

163 просмотров

r quanteda tm text2vec

15.01.2023

Quanteda: самый быстрый способ заменить токены леммой из словаря?

Есть ли более быстрая альтернатива R quanteda :: tokens_lookup ()? Я использую tokens () в пакете quanteda R для токенизации фрейма данных с 2000 документами. В каждом документе от 50 до 600 слов. На моем ПК это занимает пару секунд (Microsoft R...

2380 просмотров

r text dictionary token quanteda

18.02.2022

Какие методы я могу использовать для вычисления корреляции между словами в Quanteda?

Мой вопрос является продолжением этого . После очистки моих текстовых данных и визуализации их с помощью wordcloud я хочу увидеть, какие слова коррелируют друг с другом. Вот проблема: quanteda имеет функцию textstat_simil , но написано...

248 просмотров

r nlp correlation quanteda

22.09.2023

Есть ли функция R для поиска ключевых слов на определенном «расстоянии до слова»?

Что мне нужно, так это функция для поиска слов в пределах определенного «расстояния до слова». Слова «сумка» и «инструмент» интересны в предложении «У него в машине была сумка с инструментами». С помощью функции Quanteda kwic я могу найти «сумку»...

108 просмотров

r quanteda

15.09.2022

Как сделать распознавание именованных сущностей (NER) с помощью quANTA?

Наличие фрейма данных с текстом df = data.frame(id=c(1,2), text = c("My best friend John works and Google", "However he would like to work at Amazon as he likes to use python and stay at Canada") Без предварительной обработки Как можно...

814 просмотров

r quanteda

05.03.2022

Как найти лучшие меры для lda

Использование примера для lda из пакета Quanteda require(quanteda) require(quanteda.corpora) require(lubridate) require(topicmodels) corp_news <- download('data_corpus_guardian') corp_news_subset <- corpus_subset(corp_news, 'date' >=...

132 просмотров

r quanteda

21.08.2023

Выполнение анализа временных рядов квантовых токенов

Я сталкиваюсь с проблемами, пытаясь найти способ связать информацию о времени с каждым отдельным токеном в quanteda. Я хочу провести анализ временного ряда для списка из 25 различных токенов. Я знаю, что могу просто найти индекс каждого...

199 просмотров

r nlp time-series quanteda

27.03.2022

Как я могу сохранить словарь quanteda в виде файла yaml?

Я создал собственный словарь, используя функцию словаря из пакета Quanteda в R, и я хотел бы сохранить его как файл YAML для использования в будущем. На данный момент у меня есть сценарий R, в котором я создал словарь и сохранил словарь как объект...

85 просмотров

r quanteda

23.06.2022

Как объединить результаты анализа тональности (dfm) с исходным объектом readtext в Quanteda?

Я использовал базовую tokens_lookup функцию Quanteda со словарем настроений молодого Сороки, чтобы подсчитать количество положительных и отрицательных слов в твитах политиков. Как только я получу результаты, могу ли я добавить эти столбцы обратно...

126 просмотров

r nlp quanteda

09.03.2022

Установка настраиваемых параметров в stm

Используя этот вариант: library(quanteda) dfmat_ire <- dfm(data_corpus_irishbudget2010) library("quanteda.textmodels") quant_dfm <- dfm(data_corpus_irishbudget2010, remove_punct = TRUE, remove_numbers = TRUE,...

75 просмотров

r topic-modeling quanteda

06.09.2022

Как использовать регулярное выражение с kwic, чтобы получить все совпадения?

Кажется, я не могу получить желаемый результат, используя qwic quanteda. Вот что я пробовал: library(quanteda) library(tidyverse) Учитывая этот текст text <- "This is a phone number: 222-222-2222. Here's another phone...

93 просмотров

r regex quanteda

07.07.2023

как установить цель в функции textstat_keyness Quanteda, связанной с датой

Он работает как target = year(dfmat_news$datee) >= 2016 tstat_key <- textstat_keyness(hr_dfm, measure = "chi2",sort = TRUE, correction = c("default"), target =...

51 просмотров

r quanteda

11.03.2024

quanteda: удалить теги (#, @) и URL-адрес в строке

Рассмотрим следующую строку: txt <- ("Viele Dank für das Feedback + die Verbesserungsvorschläge! :) http://testurl.com/5lhk5p #Greenwashing #PR #Vattenfal") Я создаю dfm (Создайте матрицу функций документа) и предварительно...

173 просмотров

r twitter corpus quanteda dfm

08.05.2023

Обнаружить одно и то же слово в токенах ngram и удалить их

Как в dfm можно обнаружить в нграмме одни и те же слова, т.е. hello_hello, text_text и удалить их из dfm?

41 просмотров

r quanteda

23.07.2022

Есть ли простой способ преобразовать объект-токен в документы в quanteda?

Я пытаюсь очистить некоторые текстовые данные, а после токенизации и, например, удаляя пунктуацию, я хочу, чтобы я преобразовал объект токена в вектор / фрейм данных / корпус. Мой текущий подход: library(quanteda) library(dplyr) raw <-...

33 просмотров

r nlp quanteda

06.04.2022

Quanteda объединяет униграммы и биграммы

Я хочу поэкспериментировать, если наличие униграмм и биграмм в одном DFM улучшит мою классификацию документов. Я хотел бы создать как униграммы, так и биграммы в одном DFM. Оттуда я могу затем получить свой взвешенный DFM TF-IDF с учетом как...

46 просмотров

text-mining quanteda

24.02.2023

Вопросы по теме 'quanteda'

Похожие вопросы