Статьи по теме stop-words

Вопросы по теме 'stop-words'

Стоп-слова и полный текст логических значений MySQL

Я использую встроенные в mysql логические полнотекстовые функции для поиска в наборе данных. (ПОИСКПОЗ... ПРОТИВ синтаксиса). Я столкнулся с проблемой, когда ключевые слова, которые находятся в списке стоп-слов MySql по умолчанию, не возвращают...

1742 просмотров

mysql full-text-search stop-words

09.10.2022

Стратегия удаления общеупотребительных английских слов

Я хочу извлечь релевантные ключевые слова из html-страницы. Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene. Но теперь у меня все еще есть много основных...

3690 просмотров

lucene stop-words weka snowball

13.12.2023

Как прочитать список стоп-слов из текстового файла в R

Возможный дубликат: Чтение текстового файла в R У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте? Код:...

2073 просмотров

r text-mining stop-words

23.04.2023

Какие слова опустить?

Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений...

256 просмотров

nlp similarity stop-words

06.01.2024

Пользовательские стоп-слова для PyLucene

В PyLucene есть фильтр StopFilter , который фильтрует токены на основе заданных стоп-слов. Пример вызова выглядит следующим образом: result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET) Кажется, что заменить аргумент на...

399 просмотров

python set filter pylucene stop-words

08.05.2022

Как настроить список запрещенных слов в Lucene 4.4

Я использую Lucene 4.4 для анализа небольшого корпуса. Я пробовал StopAnalyzer и StopAnalyzer. Однако многие термины, которые мне не нужны, по-прежнему отображаются в моем результате. Например, «Я», «мы», «x» и т. Д. Итак, мне нужно настроить...

2386 просмотров

java lucene stop-words

08.02.2022

Как удалить неанглийские слова с помощью RapidMiner

Я выполняю интеллектуальный анализ текста в RapidMiner. Я просматриваю веб-сайт и выполняю некоторые задачи предварительной обработки, такие как токенизация, перевод в нижний регистр и фильтрация английских стоп-слов; но все же я получаю некоторые...

1582 просмотров

web-crawler text-mining stop-words web-mining rapidminer

20.10.2022

Удаление стоп-слов из строки в Java

У меня есть строка с большим количеством слов, и у меня есть текстовый файл, содержащий несколько стоп-слов, которые мне нужно удалить из моей строки. Допустим, у меня есть строка s="I love this phone, its super fast and there's so much new and...

29210 просмотров

java string stop-words

27.06.2022

Как использовать стоп-слово при предварительной обработке txt-файла

Я пытаюсь написать код, который будет обрабатывать текст и в конечном итоге индексировать их все. Сначала мне нужно удалить неалфавитные символы и знаки препинания и преобразовать заглавные буквы в строчные, а затем удалить стоп-слова. Вот что я...

1845 просмотров

python stop-words

15.10.2022

объект фильтра в python 3.X

В python 3.X я писал следующие коды: Одна функция для "text_tokenizing" и другая для "удаления лишних символов". В функции «remove_characters_after_tokenization» я использовал «фильтр». Моя проблема: когда я запускаю свой проект, я вижу эту...

2058 просмотров

python-3.x python nltk stop-words

15.04.2024

Как добавить пользовательский список стоп-слов в StopWordsRemover

Я использую класс pyspark.ml.feature.StopWordsRemover в своем фрейме данных pyspark. Он имеет идентификатор и текстовый столбец. В дополнение к предоставленному списку стоп-слов по умолчанию я хотел бы добавить свой собственный список, чтобы удалить...

4437 просмотров

python pyspark text-mining stop-words spark-dataframe

05.02.2024

Запретить tm удалять стоп-слова из двойных слов

Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется. Есть ли способ избежать...

64 просмотров

r corpus stop-words tm

30.07.2023

Как хранить то, что сгенерировано анализатором?

Допустим, я использую это отображение: PUT test { "settings" : { "index" : { "number_of_shards" : 1, "number_of_replicas" : 0 } }, "mappings": { "testtype": { "properties": { "content": {...

63 просмотров

analyzer stop-words elasticsearch

20.04.2024

Проблемы с реализацией стоп-слов в nltk

После импорта стоп-слов из корпуса я загрузил все файлы из nltk.download(), а затем #reading from a .txt file list = [] with open("positive.txt", "r") as file: for words in file: words = words.strip()...

525 просмотров

python nltk stop-words

01.10.2022

Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer

Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer. Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...

81 просмотров

scikit-learn nltk countvectorizer n-gram stop-words

21.10.2022

(R) О запрещенных словах в DocumentTermMatrix

У меня есть несколько вопросов о DocumentTermMatrix() и о его запрещенных словах. Я набрал, как показано ниже, но не смог получить желаемых результатов. text <- "text is my text but also his text." mycorpus <- VCorpus(VectorSource(text))...

608 просмотров

text-mining stop-words tm

26.03.2022

Python 3 решает фрейм данных

Я пытаюсь удалить стоп-слова из CSV-файла, содержащего арабские предложения, но я не уверен, что получил много ошибок мой код print(tokenized_docs_no_punctuation) stops = set(stopwords.words('arabic'))...

43 просмотров

python pandas python-3.6 nltk stop-words

28.10.2022

Список стоп-слов для r

stopwords (из пакета tm ) возвращает различные виды игнорируемых слов с поддержкой разных языков. Например. stopwords() возвращает 175 английских стоп-слов. Я хотел бы знать, есть ли какие-то инструменты, которые предоставляют больше...

52 просмотров

r text-mining stop-words

22.02.2023

Каков эффективный способ проверить, близко ли текущее слово к слову в строке?

рассмотрим примеры ниже: Пример 1: str1 = "wow...it looks amazing" str2 = "looks amazi" Вы видите, что amazi близко к amazing , str2 опечатка, я хотел написать программу, которая скажет мне, что amazi близко к amazing , тогда в...

103 просмотров

python-3.x python string stop-words pattern-matching

12.10.2023

Вопросы по теме 'stop-words'

Похожие вопросы