Вопросы по теме 'tm'

Пакет wordcloud: получить ошибку в strwidth (): недопустимое значение «cex»
Я использую пакеты tm и wordcloud в R 2.15.1. Я пытаюсь сделать облако слов из DTM. Вот код: library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.cloud(trymatrix, max.words=15,...
6250 просмотров
tm
schedule 08.03.2023

Контрольный список R DocumentTermMatrix не работает, молча игнорирует неизвестные параметры
У меня есть два следующих DTM: dtm <- DocumentTermMatrix(t) dtmImproved <- DocumentTermMatrix(t, control=list(minWordLength = 4, minDocFreq=5)) Когда я реализую это, я вижу два одинаковых DTM, и если я открою...
6322 просмотров
schedule 25.03.2023

как прочитать текст в таблице из файла csv
Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...
3558 просмотров
schedule 07.03.2023

Импорт DataframeSource пакета R tm
Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...
2558 просмотров
schedule 29.04.2023

Как сделать корпус RTM из 100 миллионов твитов?
Я хочу создать текстовую базу из 100 миллионов твитов, используя пакет R для распределенных вычислений tm (называемый tm.plugin.dc ). Твиты хранятся в большой таблице MySQL на моем ноутбуке. Мой ноутбук старый, поэтому я использую кластер Hadoop,...
1513 просмотров
schedule 02.12.2023

R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?
Я прочитал следующий текстовый файл и столкнулся со следующей проблемой: Имя файла: QnA.txt Вопрос: Как тебя зовут? Ответ: ХХХХ Вопрос: Скажите, пожалуйста, ваш адрес? Ответ: ХХХ, хххх-сссс, 00000 Вопрос: Сообщите мне другие...
146 просмотров
schedule 29.05.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule 04.06.2024

Ошибка в simple_triplet_matrix, невозможность использовать RWeka для подсчета фраз
Используя TM, я сравниваю DocumentTermMatrix со списком словаря, чтобы подсчитать итоги: totals <- inspect(DocumentTermMatrix(x, list(dictionary = d))) Это отлично работает для отдельных слов, но я хочу включить двойные слова и не могу...
2366 просмотров
r tm
schedule 01.12.2023

Интеллектуальный анализ текста с использованием R для подсчета частоты слов
Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...
7624 просмотров
schedule 14.03.2023

Процесс НЛП для объединения общих словосочетаний
У меня есть корпус, в котором я использую пакет tm в R (а также отражаю тот же скрипт в NLTK в python). Я работаю с униграммами, но хотел бы, чтобы какой-нибудь синтаксический анализатор объединял слова, обычно совмещенные, как одно слово, т. е. я...
1109 просмотров
schedule 24.03.2024

Как удалить строки из фрейма данных, которые содержат всего несколько слов в R?
Я пытаюсь удалить из своего фрейма данных строки, содержащие менее 5 слов. например mydf <- as.data.frame(read.xlsx("C:\\data.xlsx", 1, header=TRUE) head(mydf) NO ARTICLE 1 34 The New York Times reports a lot of words here. 2...
1052 просмотров
schedule 16.04.2023

Использование фильтра в tm_map (testfile, removeNumbers) в R?
Я использую tm_map(testfile, removeNumbers) для удаления номеров текстового файла. Однако мне нужно сохранить числа, которые сопровождают такие слова, как ipv4 и ipv6. Как я могу использовать функцию removeNumbers для удаления других номеров, но...
2312 просмотров
r tm
schedule 02.02.2024

Удалить unicode ‹+f0b7› из текста корпуса
У меня довольно упорная проблема... Я не могу удалить строки <+f0b7> и <+f0a0> из Corpora, которые были загружены из файлов *.txt в R: ОБНОВЛЕНИЕ Вот ссылка на образец файла .txt : https://db.tt/qTRKpJYK...
3119 просмотров
r tm
schedule 28.03.2022

Поиск текста на арабском и английском языках с помощью пакета tm в R - проблема с разными результатами между MAC OSX и ОС Microsoft Windows 8.1
Пакет R - TM - Проблема с арабским - разница между Mac OS X и Windows OS НА MACBOOK PRO с RSTUDIO ```{r} versionInfo() ``` 1.R version 3.1.0 (2014-04-10) 2.Platform: x86_64-apple-darwin10.8.0 (64-bit) 3.Packages : tm_0.6 NLP_0.1-3 НА...
1522 просмотров
schedule 11.06.2024

Построение матрицы терминов-документов с конкретными токенами (и всеми остальными)
Я пытаюсь создать матрицу терминов-документов, в которой перечислены все униграммы в корпусе, но также извлекается определенный список биграмм. Так, например, в предложении «используйте свой сигнал поворота» будут перечислены «использовать», «ваш» и...
1120 просмотров
r tm
schedule 28.05.2022

R Corpus испортил мой текст в кодировке UTF-8
Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки. Вот воспроизводимый пример моей проблемы: Загрузить на русском языке: > data <-...
9546 просмотров
schedule 03.12.2022

Пакет tm: вывод findAssocs() в матрицу вместо списка в R
Рассмотрим следующий список: library(tm) data("crude") tdm <- TermDocumentMatrix(crude) a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1)) Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...
1090 просмотров
schedule 09.05.2024

Самоконфликтующие стоп-слова в интеллектуальном анализе текста RTM
Я занимаюсь очисткой данных для интеллектуального анализа текста. Это включает в себя удаление чисел, знаков препинания и стоп-слов (обычные слова, которые будут просто шумом при интеллектуальном анализе данных), а затем определение корней слов. С...
1342 просмотров
schedule 25.11.2023

Как визуализировать результат findAssocs() из tm
Я извлек несколько твитов и поместил их в матрицу документов терминов. Затем я начал искать словесные ассоциации — слова, которые чаще всего встречаются вместе. tweets_tdm <- TermDocumentMatrix(tweets_corpus) findAssocs(tweets_tdm,...
1204 просмотров
schedule 27.08.2023

Разделение документа из tm Corpus на несколько документов
Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я...
2621 просмотров
schedule 29.03.2022