Статьи по теме corpus

Вопросы по теме 'corpus'

Ошибка атрибута при использовании Wordnet API с python 2.7.3

Я установил nltk с помощью pip install на python 2.7.3. Когда я запускаю эти команды import nltk from nltk.corpus import wordnet as wn dog = wn.sysnet('dog.n.01') получаю следующую ошибку.. Traceback (most recent call last): File...

1115 просмотров

python-2.7 corpus wordnet

18.03.2024

Импорт DataframeSource пакета R tm

Чтение CSV в R и желание сделать из него корпус с пакетом tm, но не получить желаемых результатов. В настоящее время, когда я читаю текст в формате CSV, а затем проверяю корпус, все данные числовые. (Я включил только первые три столбца data для...

2558 просмотров

r csv corpus tm

29.04.2023

R: Как преобразовать образец ответа на разговорный вопрос во фрейм данных?

Я прочитал следующий текстовый файл и столкнулся со следующей проблемой: Имя файла: QnA.txt Вопрос: Как тебя зовут? Ответ: ХХХХ Вопрос: Скажите, пожалуйста, ваш адрес? Ответ: ХХХ, хххх-сссс, 00000 Вопрос: Сообщите мне другие...

146 просмотров

r dataframe corpus tm

29.05.2023

Документы интеллектуального анализа текста R из файла CSV (одна строка на документ)

Я пытаюсь работать с пакетом tm в R и иметь CSV-файл с отзывами клиентов, где каждая строка представляет собой отдельный экземпляр отзыва. Я хочу импортировать все содержимое этого отзыва в корпус, но я хочу, чтобы каждая строка была отдельным...

20255 просмотров

r text-mining corpus tm documents

04.06.2024

R Corpus испортил мой текст в кодировке UTF-8

Я просто пытаюсь создать корпус из русского текста в кодировке UTF-8. Проблема в том, что метод Corpus из пакета tm неправильно кодирует строки. Вот воспроизводимый пример моей проблемы: Загрузить на русском языке: > data <-...

9546 просмотров

r encoding utf-8 corpus tm

03.12.2022

Загрузка корпуса банка деревьев с набором тегов коричневого цвета

У меня есть корпус дерева WSJ от nltk. Я хочу загрузить его с набором тегов коричневого корпуса. Является ли это возможным? import nltk wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags wsj2 =...

284 просмотров

python-2.7 nlp nltk corpus tagged-corpus

23.02.2023

Доступ к элементам в корпусе

Я использую функцию Корпуса для чтения файла, который я создал в указанном ниже каталоге. chk <- Corpus(DirSource("C:\\Users\\TCS Profile\\Documents\\R\\Machine Learning Text\\Naive Bayes")) После создания корпуса, когда я проверяю...

1139 просмотров

r corpus tm

28.09.2023

Как получить конкретные ранжированные слова из необработанного корпуса?

import nltk import nltk.data nltk.corpus.brown y= nltk.corpus.brown.raw() print(y) Когда я делаю print(y) , он показывает мне все необработанные данные в этом корпусе, но я хочу получить только 10,000 слова из этого...

140 просмотров

python-3.x python nlp corpus

18.09.2022

Ошибка памяти при работе с большим корпусом текста

У меня есть большой текстовый файл (~ 450 МБ -> 129 000 строк и 457 000 000 символов), когда я пытаюсь работать с этим файлом через некоторое время, Memory Error поднимается, вот мой код: docDict = {} ind = 1 with...

484 просмотров

python memory corpus

25.05.2022

DocumentTermMatrix неверный подсчет при использовании словаря

на самом деле я пытаюсь провести анализ настроений на основе данных Twitter, используя наивный алгоритм Байеса. Я смотрю 2000 твитов. После получения данных в R studio я разделяю и обрабатываю дату следующим образом: train_size = floor(0.75...

200 просмотров

r twitter corpus tm

30.12.2023

Найдите «современный» корпус слов nltk

Я создаю классификатор текста, который будет классифицировать текст по темам. На первом этапе моей программы в рамках очистки данных я удаляю все неанглийские слова. Для этого я использую корпус nltk.corpus.words.words() . Проблема с этим...

468 просмотров

python nltk corpus

04.06.2024

Запретить tm удалять стоп-слова из двойных слов

Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется. Есть ли способ избежать...

64 просмотров

r corpus stop-words tm

30.07.2023

NLTK - извлечение информации о местоположении и определение страны-владельца

в настоящее время у меня есть сценарий, в котором я хочу извлечь информацию о местоположении в заданном тексте и в конечном итоге получить страну, к которой принадлежит местоположение. Например: I am studying in New York. Я хочу захватить...

2611 просмотров

python machine-learning nltk corpus

18.07.2023

Как я могу отредактировать код для работы с моим набором данных вместо корпусов movie_reviews для классификатора NB?

Я пытаюсь обучить наивный байесовский классификатор с помощью моих наборов обучающих данных, которые были вручную классифицированы на положительные и отрицательные твиты. Я нашел много кода, который тренируется с использованием корпуса...

29 просмотров

sentiment-analysis classification nltk corpus naivebayes

19.08.2022

Распечатайте первую строку одного элемента Корпуса в R, используя пакет tm

Как распечатать небольшой образец или первую строку корпуса в R с помощью пакета tm? У меня очень большой корпус (> 1 ГБ), и я занимаюсь очисткой текста. Я хотел бы проверить, как я применяю процедуры очистки. Печатать только первую строку или...

542 просмотров

r text-mining corpus tm

06.02.2023

Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM

Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа. Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...

1530 просмотров

r corpus word-frequency tm term-document-matrix

10.07.2022

Ввод CSV в gensim LDA через corpora.csvcorpus

Я хочу использовать LDA в gensim для тематического моделирования нескольких тысяч документов. Поэтому я использую csv-файл в качестве входных данных в формате термин-документ-матрица. В настоящее время возникает ошибка при запуске следующего кода:...

403 просмотров

python-3.x csv gensim corpus lda

13.10.2023

Как использовать gensim.similarities.Similarity, чтобы найти сходство между двумя предложениями

Я хотел написать код, чтобы найти сходство между двумя предложениями, и в итоге я написал этот код, используя nltk и gensim. Я использовал токенизацию и gensim.similarities.Similarity для выполнения этой работы. Но это не служит моей цели. Он...

1314 просмотров

python-3.x python gensim nltk corpus

13.05.2024

Частоты терминов из VCorpus и DTM не совпадают

Я рассчитал периодичность тестовых документов как из Корпуса, так и из DTM, как показано ниже. Но они не совпадали друг с другом. Кто-нибудь может сказать мне, откуда взялось несоответствие? Это потому, что я использовал неправильные методы для...

38 просмотров

r text-mining corpus tm

29.06.2022

Как разделить матрицу терминов документа для обучения

У меня есть матрица терминов документа, которую я хотел бы разделить на две части: один для обучения, а другой - для тестирования. Я пробовал код ниже: library(tm) text.vector <- c("The quick brown dog", "jumped over", "the lazy fox", "How...

369 просмотров

r nlp corpus

14.04.2024

Вопросы по теме 'corpus'

Похожие вопросы