Вопросы по теме 'corpus'

Ошибка атрибута при использовании Wordnet API с python 2.7.3
Я установил nltk с помощью pip install на python 2.7.3. Когда я запускаю эти команды import nltk from nltk.corpus import wordnet as wn dog = wn.sysnet('dog.n.01') получаю следующую ошибку.. Traceback (most recent call last): File...
1115 просмотров
schedule 18.03.2024

Импорт DataframeSource пакета R tm
Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...
2558 просмотров
schedule 29.04.2023

R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?
Я прочитал следующий текстовый файл и столкнулся со следующей проблемой: Имя файла: QnA.txt Вопрос: Как тебя зовут? Ответ: ХХХХ Вопрос: Скажите, пожалуйста, ваш адрес? Ответ: ХХХ, хххх-сссс, 00000 Вопрос: Сообщите мне другие...
146 просмотров
schedule 29.05.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule 04.06.2024

R Corpus испортил мой текст в кодировке UTF-8
Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки. Вот воспроизводимый пример моей проблемы: Загрузить на русском языке: > data <-...
9546 просмотров
schedule 03.12.2022

Загрузка корпуса банка деревьев с набором тегов коричневого цвета
У меня есть корпус дерева WSJ от nltk. Я хочу загрузить его с набором тегов коричневого корпуса. Является ли это возможным? import nltk wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags wsj2 =...
284 просмотров
schedule 23.02.2023

Доступ к элементам в корпусе
Я использую функцию Корпуса для чтения файла, который я создал в указанном ниже каталоге. chk <- Corpus(DirSource("C:\\Users\\TCS Profile\\Documents\\R\\Machine Learning Text\\Naive Bayes")) После создания корпуса, когда я проверяю...
1139 просмотров
schedule 28.09.2023

Как получить конкретные ранжированные слова из необработанного корпуса?
import nltk import nltk.data nltk.corpus.brown y= nltk.corpus.brown.raw() print(y) Когда я делаю print(y) , он показывает мне все необработанные данные в этом корпусе, но я хочу получить только 10,000 слова из этого...
140 просмотров
schedule 18.09.2022

Ошибка памяти при работе с большим корпусом текста
У меня есть большой текстовый файл (~ 450 МБ -> 129 000 строк и 457 000 000 символов), когда я пытаюсь работать с этим файлом через некоторое время, Memory Error поднимается, вот мой код: docDict = {} ind = 1 with...
484 просмотров
schedule 25.05.2022

DocumentTermMatrix неверный подсчет при использовании словаря
на самом деле я пытаюсь провести анализ настроений на основе данных Twitter, используя наивный алгоритм Байеса. Я смотрю 2000 твитов. После получения данных в R studio я разделяю и обрабатываю дату следующим образом: train_size = floor(0.75...
200 просмотров
schedule 30.12.2023

Найдите «современный» корпус слов nltk
Я создаю классификатор текста, который будет классифицировать текст по темам. На первом этапе моей программы в рамках очистки данных я удаляю все неанглийские слова. Для этого я использую корпус nltk.corpus.words.words() . Проблема с этим...
468 просмотров
schedule 04.06.2024

Запретить tm удалять стоп-слова из двойных слов
Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется. Есть ли способ избежать...
64 просмотров
schedule 30.07.2023

NLTK - извлечение информации о местоположении и определение страны-владельца
в настоящее время у меня есть сценарий, в котором я хочу извлечь информацию о местоположении в заданном тексте и в конечном итоге получить страну, к которой принадлежит местоположение. Например: I am studying in New York. Я хочу захватить...
2611 просмотров
schedule 18.07.2023

Как я могу отредактировать код для работы с моим набором данных вместо корпусов movie_reviews для классификатора NB?
Я пытаюсь обучить наивный байесовский классификатор с помощью моих наборов обучающих данных, которые были вручную классифицированы на положительные и отрицательные твиты. Я нашел много кода, который тренируется с использованием корпуса...
29 просмотров

Распечатайте первую строку одного элемента Корпуса в R, используя пакет tm
Как распечатать небольшой образец или первую строку корпуса в R с помощью пакета tm? У меня очень большой корпус (> 1 ГБ), и я занимаюсь очисткой текста. Я хотел бы проверить, как я применяю процедуры очистки. Печатать только первую строку или...
542 просмотров
schedule 06.02.2023

Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM
Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа. Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...
1530 просмотров

Ввод CSV в gensim LDA через corpora.csvcorpus
Я хочу использовать LDA в gensim для тематического моделирования нескольких тысяч документов. Поэтому я использую csv-файл в качестве входных данных в формате термин-документ-матрица. В настоящее время возникает ошибка при запуске следующего кода:...
403 просмотров
schedule 13.10.2023

Как использовать gensim.similarities.Similarity, чтобы найти сходство между двумя предложениями
Я хотел написать код, чтобы найти сходство между двумя предложениями, и в итоге я написал этот код, используя nltk и gensim. Я использовал токенизацию и gensim.similarities.Similarity для выполнения этой работы. Но это не служит моей цели. Он...
1314 просмотров
schedule 13.05.2024

Частоты терминов из VCorpus и DTM не совпадают
Я рассчитал периодичность тестовых документов как из Корпуса, так и из DTM, как показано ниже. Но они не совпадали друг с другом. Кто-нибудь может сказать мне, откуда взялось несоответствие? Это потому, что я использовал неправильные методы для...
38 просмотров
schedule 29.06.2022

Как разделить матрицу терминов документа для обучения
У меня есть матрица терминов документа, которую я хотел бы разделить на две части: один для обучения, а другой - для тестирования. Я пробовал код ниже: library(tm) text.vector <- c("The quick brown dog", "jumped over", "the lazy fox", "How...
369 просмотров
schedule 14.04.2024