Статьи по теме tm

Вопросы по теме 'tm'

Пакет wordcloud: получить ошибку в strwidth (): недопустимое значение «cex»

Я использую пакеты tm и wordcloud в R 2.15.1. Я пытаюсь сделать облако слов из DTM. Вот код: library(wordcloud) thedtmsparse = inspect(sparse) trymatrix = t(thedtmsparse) colnames(trymatrix) = c() comparison.cloud(trymatrix, max.words=15,...

6250 просмотров

08.03.2023

Контрольный список R DocumentTermMatrix не работает, молча игнорирует неизвестные параметры

У меня есть два следующих DTM: dtm <- DocumentTermMatrix(t) dtmImproved <- DocumentTermMatrix(t, control=list(minWordLength = 4, minDocFreq=5)) Когда я реализую это, я вижу два одинаковых DTM, и если я открою...

6322 просмотров

r matrix term controls tm

25.03.2023

как прочитать текст в таблице из файла csv

Я новичок в использовании пакета tm. Я хочу прочитать файл csv, который содержит один столбец с 2000 текстами и второй столбец с факторной переменной да/нет в корпус. Мое намерение состоит в том, чтобы преобразовать текст в виде матрицы и...

3558 просмотров

r text-mining tm

07.03.2023

Импорт DataframeSource пакета R tm

Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...

2558 просмотров

r csv corpus tm

29.04.2023

Как сделать корпус RTM из 100 миллионов твитов?

Я хочу создать текстовую базу из 100 миллионов твитов, используя пакет R для распределенных вычислений tm (называемый tm.plugin.dc ). Твиты хранятся в большой таблице MySQL на моем ноутбуке. Мой ноутбук старый, поэтому я использую кластер Hadoop,...

1513 просмотров

r amazon-ec2 hadoop hive tm

02.12.2023

R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?

Я прочитал следующий текстовый файл и столкнулся со следующей проблемой: Имя файла: QnA.txt Вопрос: Как тебя зовут? Ответ: ХХХХ Вопрос: Скажите, пожалуйста, ваш адрес? Ответ: ХХХ, хххх-сссс, 00000 Вопрос: Сообщите мне другие...

146 просмотров

r dataframe corpus tm

29.05.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)

Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...

20255 просмотров

r text-mining corpus tm documents

04.06.2024

Ошибка в simple_triplet_matrix, невозможность использовать RWeka для подсчета фраз

Используя TM, я сравниваю DocumentTermMatrix со списком словаря, чтобы подсчитать итоги: totals <- inspect(DocumentTermMatrix(x, list(dictionary = d))) Это отлично работает для отдельных слов, но я хочу включить двойные слова и не могу...

2366 просмотров

r tm

01.12.2023

Интеллектуальный анализ текста с использованием R для подсчета частоты слов

Я хочу посчитать появление слова «неопределенность», но только если «экономическая политика» или «законодательство» или слова, относящиеся к политике, встречаются в одном и том же тексте. Прямо сейчас я выпустил код на R для подсчета частоты всех...

7624 просмотров

r text-mining tm

14.03.2023

Процесс НЛП для объединения общих словосочетаний

У меня есть корпус, в котором я использую пакет tm в R (а также отражаю тот же скрипт в NLTK в python). Я работаю с униграммами, но хотел бы, чтобы какой-нибудь синтаксический анализатор объединял слова, обычно совмещенные, как одно слово, т. е. я...

1109 просмотров

python r nlp nltk tm

24.03.2024

Как удалить строки из фрейма данных, которые содержат всего несколько слов в R?

Я пытаюсь удалить из своего фрейма данных строки, содержащие менее 5 слов. например mydf <- as.data.frame(read.xlsx("C:\\data.xlsx", 1, header=TRUE) head(mydf) NO ARTICLE 1 34 The New York Times reports a lot of words here. 2...

1052 просмотров

r regex dataframe row tm

16.04.2023

Использование фильтра в tm_map (testfile, removeNumbers) в R?

Я использую tm_map(testfile, removeNumbers) для удаления номеров текстового файла. Однако мне нужно сохранить числа, которые сопровождают такие слова, как ipv4 и ipv6. Как я могу использовать функцию removeNumbers для удаления других номеров, но...

2312 просмотров

r tm

02.02.2024

Удалить unicode ‹+f0b7› из текста корпуса

У меня довольно упорная проблема... Я не могу удалить строки <+f0b7> и <+f0a0> из Corpora, которые были загружены из файлов *.txt в R: ОБНОВЛЕНИЕ Вот ссылка на образец файла .txt : https://db.tt/qTRKpJYK...

3119 просмотров

r tm

28.03.2022

Поиск текста на арабском и английском языках с помощью пакета tm в R - проблема с разными результатами между MAC OSX и ОС Microsoft Windows 8.1

Пакет R - TM - Проблема с арабским - разница между Mac OS X и Windows OS НА MACBOOK PRO с RSTUDIO ```{r} versionInfo() ``` 1.R version 3.1.0 (2014-04-10) 2.Platform: x86_64-apple-darwin10.8.0 (64-bit) 3.Packages : tm_0.6 NLP_0.1-3 НА...

1522 просмотров

r utf-8 text-mining arabic tm

11.06.2024

Построение матрицы терминов-документов с конкретными токенами (и всеми остальными)

Я пытаюсь создать матрицу терминов-документов, в которой перечислены все униграммы в корпусе, но также извлекается определенный список биграмм. Так, например, в предложении «используйте свой сигнал поворота» будут перечислены «использовать», «ваш» и...

1120 просмотров

r tm

28.05.2022

R Corpus испортил мой текст в кодировке UTF-8

Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки. Вот воспроизводимый пример моей проблемы: Загрузить на русском языке: > data <-...

9546 просмотров

r encoding utf-8 corpus tm

03.12.2022

Пакет tm: вывод findAssocs() в матрицу вместо списка в R

Рассмотрим следующий список: library(tm) data("crude") tdm <- TermDocumentMatrix(crude) a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1)) Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...

1090 просмотров

r matrix tm term-document-matrix

09.05.2024

Самоконфликтующие стоп-слова в интеллектуальном анализе текста RTM

Я занимаюсь очисткой данных для интеллектуального анализа текста. Это включает в себя удаление чисел, знаков препинания и стоп-слов (обычные слова, которые будут просто шумом при интеллектуальном анализе данных), а затем определение корней слов. С...

1342 просмотров

r text-mining data-mining tm

25.11.2023

Как визуализировать результат findAssocs() из tm

Я извлек несколько твитов и поместил их в матрицу документов терминов. Затем я начал искать словесные ассоциации — слова, которые чаще всего встречаются вместе. tweets_tdm <- TermDocumentMatrix(tweets_corpus) findAssocs(tweets_tdm,...

1204 просмотров

r data-visualization text-mining tm

27.08.2023

Разделение документа из tm Corpus на несколько документов

Немного странный вопрос: есть ли способ разделить документы корпуса, которые были импортированы с помощью функции Корпуса в tm, на несколько документов, которые затем можно будет перечитать в моем Корпусе как отдельные документы? Например, если бы я...

2621 просмотров

r regex split tm text-analysis

29.03.2022

Вопросы по теме 'tm'

Похожие вопросы