Вопросы по теме 'corpus'
Ошибка атрибута при использовании Wordnet API с python 2.7.3
Я установил nltk с помощью pip install на python 2.7.3. Когда я запускаю эти команды
import nltk
from nltk.corpus import wordnet as wn
dog = wn.sysnet('dog.n.01')
получаю следующую ошибку..
Traceback (most recent call last):
File...
1115 просмотров
schedule
18.03.2024
Импорт DataframeSource пакета R tm
Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...
2558 просмотров
schedule
29.04.2023
R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?
Я прочитал следующий текстовый файл и столкнулся со следующей проблемой:
Имя файла: QnA.txt
Вопрос: Как тебя зовут?
Ответ: ХХХХ
Вопрос: Скажите, пожалуйста, ваш адрес?
Ответ: ХХХ, хххх-сссс, 00000
Вопрос: Сообщите мне другие...
146 просмотров
schedule
29.05.2023
Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)
Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...
20255 просмотров
schedule
04.06.2024
R Corpus испортил мой текст в кодировке UTF-8
Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки.
Вот воспроизводимый пример моей проблемы:
Загрузить на русском языке:
> data <-...
9546 просмотров
schedule
03.12.2022
Загрузка корпуса банка деревьев с набором тегов коричневого цвета
У меня есть корпус дерева WSJ от nltk. Я хочу загрузить его с набором тегов коричневого корпуса. Является ли это возможным?
import nltk
wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags
wsj2 =...
284 просмотров
schedule
23.02.2023
Доступ к элементам в корпусе
Я использую функцию Корпуса для чтения файла, который я создал в указанном ниже каталоге.
chk <- Corpus(DirSource("C:\\Users\\TCS Profile\\Documents\\R\\Machine Learning Text\\Naive Bayes"))
После создания корпуса, когда я проверяю...
1139 просмотров
schedule
28.09.2023
Как получить конкретные ранжированные слова из необработанного корпуса?
import nltk
import nltk.data
nltk.corpus.brown
y= nltk.corpus.brown.raw()
print(y)
Когда я делаю print(y) , он показывает мне все необработанные данные в этом корпусе, но я хочу получить только 10,000 слова из этого...
140 просмотров
schedule
18.09.2022
Ошибка памяти при работе с большим корпусом текста
У меня есть большой текстовый файл (~ 450 МБ -> 129 000 строк и 457 000 000 символов), когда я пытаюсь работать с этим файлом через некоторое время, Memory Error поднимается, вот мой код:
docDict = {}
ind = 1
with...
484 просмотров
schedule
25.05.2022
DocumentTermMatrix неверный подсчет при использовании словаря
на самом деле я пытаюсь провести анализ настроений на основе данных Twitter, используя наивный алгоритм Байеса.
Я смотрю 2000 твитов.
После получения данных в R studio я разделяю и обрабатываю дату следующим образом:
train_size = floor(0.75...
200 просмотров
schedule
30.12.2023
Найдите «современный» корпус слов nltk
Я создаю классификатор текста, который будет классифицировать текст по темам.
На первом этапе моей программы в рамках очистки данных я удаляю все неанглийские слова. Для этого я использую корпус nltk.corpus.words.words() . Проблема с этим...
468 просмотров
schedule
04.06.2024
Запретить tm удалять стоп-слова из двойных слов
Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется.
Есть ли способ избежать...
64 просмотров
schedule
30.07.2023
NLTK - извлечение информации о местоположении и определение страны-владельца
в настоящее время у меня есть сценарий, в котором я хочу извлечь информацию о местоположении в заданном тексте и в конечном итоге получить страну, к которой принадлежит местоположение.
Например:
I am studying in New York.
Я хочу захватить...
2611 просмотров
schedule
18.07.2023
Как я могу отредактировать код для работы с моим набором данных вместо корпусов movie_reviews для классификатора NB?
Я пытаюсь обучить наивный байесовский классификатор с помощью моих наборов обучающих данных, которые были вручную классифицированы на положительные и отрицательные твиты.
Я нашел много кода, который тренируется с использованием корпуса...
29 просмотров
schedule
19.08.2022
Распечатайте первую строку одного элемента Корпуса в R, используя пакет tm
Как распечатать небольшой образец или первую строку корпуса в R с помощью пакета tm? У меня очень большой корпус (> 1 ГБ), и я занимаюсь очисткой текста. Я хотел бы проверить, как я применяю процедуры очистки. Печатать только первую строку или...
542 просмотров
schedule
06.02.2023
Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM
Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа.
Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...
1530 просмотров
schedule
10.07.2022
Ввод CSV в gensim LDA через corpora.csvcorpus
Я хочу использовать LDA в gensim для тематического моделирования нескольких тысяч документов. Поэтому я использую csv-файл в качестве входных данных в формате термин-документ-матрица.
В настоящее время возникает ошибка при запуске следующего кода:...
403 просмотров
schedule
13.10.2023
Как использовать gensim.similarities.Similarity, чтобы найти сходство между двумя предложениями
Я хотел написать код, чтобы найти сходство между двумя предложениями, и в итоге я написал этот код, используя nltk и gensim. Я использовал токенизацию и gensim.similarities.Similarity для выполнения этой работы. Но это не служит моей цели. Он...
1314 просмотров
schedule
13.05.2024
Частоты терминов из VCorpus и DTM не совпадают
Я рассчитал периодичность тестовых документов как из Корпуса, так и из DTM, как показано ниже. Но они не совпадали друг с другом. Кто-нибудь может сказать мне, откуда взялось несоответствие? Это потому, что я использовал неправильные методы для...
38 просмотров
schedule
29.06.2022
Как разделить матрицу терминов документа для обучения
У меня есть матрица терминов документа, которую я хотел бы разделить на две части: один для обучения, а другой - для тестирования.
Я пробовал код ниже:
library(tm)
text.vector <- c("The quick brown dog",
"jumped over",
"the lazy fox",
"How...
369 просмотров
schedule
14.04.2024