Вопросы по теме 'tm'
Пакет wordcloud: получить ошибку в strwidth (): недопустимое значение «cex»
Я использую пакеты tm и wordcloud в R 2.15.1. Я пытаюсь сделать облако слов из DTM. Вот код:
library(wordcloud)
thedtmsparse = inspect(sparse)
trymatrix = t(thedtmsparse)
colnames(trymatrix) = c()
comparison.cloud(trymatrix, max.words=15,...
6250 просмотров
schedule
08.03.2023
Контрольный список R DocumentTermMatrix не работает, молча игнорирует неизвестные параметры
У меня есть два следующих DTM:
dtm <- DocumentTermMatrix(t)
dtmImproved <- DocumentTermMatrix(t,
control=list(minWordLength = 4, minDocFreq=5))
Когда я реализую это, я вижу два одинаковых DTM, и если я открою...
6322 просмотров
schedule
25.03.2023
как прочитать текст в таблице из файла csv
Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...
3558 просмотров
schedule
07.03.2023
Импорт DataframeSource пакета R tm
Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...
2558 просмотров
schedule
29.04.2023
Как сделать корпус RTM из 100 миллионов твитов?
Я хочу создать текстовую базу из 100 миллионов твитов, используя пакет R для распределенных вычислений tm (называемый tm.plugin.dc ). Твиты хранятся в большой таблице MySQL на моем ноутбуке. Мой ноутбук старый, поэтому я использую кластер Hadoop,...
1513 просмотров
schedule
02.12.2023
R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?
Я прочитал следующий текстовый файл и столкнулся со следующей проблемой:
Имя файла: QnA.txt
Вопрос: Как тебя зовут?
Ответ: ХХХХ
Вопрос: Скажите, пожалуйста, ваш адрес?
Ответ: ХХХ, хххх-сссс, 00000
Вопрос: Сообщите мне другие...
146 просмотров
schedule
29.05.2023
Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule
04.06.2024
Ошибка в simple_triplet_matrix, невозможность использовать RWeka для подсчета фраз
Используя TM, я сравниваю DocumentTermMatrix со списком словаря, чтобы подсчитать итоги:
totals <- inspect(DocumentTermMatrix(x, list(dictionary = d)))
Это отлично работает для отдельных слов, но я хочу включить двойные слова и не могу...
2366 просмотров
schedule
01.12.2023
Интеллектуальный анализ текста с использованием R для подсчета частоты слов
Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...
7624 просмотров
schedule
14.03.2023
Процесс НЛП для объединения общих словосочетаний
У меня есть корпус, в котором я использую пакет tm в R (а также отражаю тот же скрипт в NLTK в python). Я работаю с униграммами, но хотел бы, чтобы какой-нибудь синтаксический анализатор объединял слова, обычно совмещенные, как одно слово, т. е. я...
1109 просмотров
schedule
24.03.2024
Как удалить строки из фрейма данных, которые содержат всего несколько слов в R?
Я пытаюсь удалить из своего фрейма данных строки, содержащие менее 5 слов. например
mydf <- as.data.frame(read.xlsx("C:\\data.xlsx", 1, header=TRUE)
head(mydf)
NO ARTICLE
1 34 The New York Times reports a lot of words here.
2...
1052 просмотров
schedule
16.04.2023
Использование фильтра в tm_map (testfile, removeNumbers) в R?
Я использую tm_map(testfile, removeNumbers) для удаления номеров текстового файла. Однако мне нужно сохранить числа, которые сопровождают такие слова, как ipv4 и ipv6. Как я могу использовать функцию removeNumbers для удаления других номеров, но...
2312 просмотров
schedule
02.02.2024
Удалить unicode ‹+f0b7› из текста корпуса
У меня довольно упорная проблема... Я не могу удалить строки <+f0b7> и <+f0a0> из Corpora, которые были загружены из файлов *.txt в R:
ОБНОВЛЕНИЕ Вот ссылка на образец файла .txt : https://db.tt/qTRKpJYK...
3119 просмотров
schedule
28.03.2022
Поиск текста на арабском и английском языках с помощью пакета tm в R - проблема с разными результатами между MAC OSX и ОС Microsoft Windows 8.1
Пакет R - TM - Проблема с арабским - разница между Mac OS X и Windows OS
НА MACBOOK PRO с RSTUDIO
```{r}
versionInfo()
```
1.R version 3.1.0 (2014-04-10)
2.Platform: x86_64-apple-darwin10.8.0 (64-bit)
3.Packages : tm_0.6 NLP_0.1-3
НА...
1522 просмотров
schedule
11.06.2024
Построение матрицы терминов-документов с конкретными токенами (и всеми остальными)
Я пытаюсь создать матрицу терминов-документов, в которой перечислены все униграммы в корпусе, но также извлекается определенный список биграмм. Так, например, в предложении «используйте свой сигнал поворота» будут перечислены «использовать», «ваш» и...
1120 просмотров
schedule
28.05.2022
R Corpus испортил мой текст в кодировке UTF-8
Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки.
Вот воспроизводимый пример моей проблемы:
Загрузить на русском языке:
> data <-...
9546 просмотров
schedule
03.12.2022
Пакет tm: вывод findAssocs() в матрицу вместо списка в R
Рассмотрим следующий список:
library(tm)
data("crude")
tdm <- TermDocumentMatrix(crude)
a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1))
Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...
1090 просмотров
schedule
09.05.2024
Самоконфликтующие стоп-слова в интеллектуальном анализе текста RTM
Я занимаюсь очисткой данных для интеллектуального анализа текста. Это включает в себя удаление чисел, знаков препинания и стоп-слов (обычные слова, которые будут просто шумом при интеллектуальном анализе данных), а затем определение корней слов.
С...
1342 просмотров
schedule
25.11.2023
Как визуализировать результат findAssocs() из tm
Я извлек несколько твитов и поместил их в матрицу документов терминов. Затем я начал искать словесные ассоциации — слова, которые чаще всего встречаются вместе.
tweets_tdm <- TermDocumentMatrix(tweets_corpus)
findAssocs(tweets_tdm,...
1204 просмотров
schedule
27.08.2023
Разделение документа из tm Corpus на несколько документов
Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я...
2621 просмотров
schedule
29.03.2022