Вопросы по теме 'stop-words'

Стоп-слова и полный текст логических значений MySQL
Я использую встроенные в mysql логические полнотекстовые функции для поиска в наборе данных. (ПОИСКПОЗ... ПРОТИВ синтаксиса). Я столкнулся с проблемой, когда ключевые слова, которые находятся в списке стоп-слов MySql по умолчанию, не возвращают...
1742 просмотров
schedule 09.10.2022

Стратегия удаления общеупотребительных английских слов
Я хочу извлечь релевантные ключевые слова из html-страницы. Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene. Но теперь у меня все еще есть много основных...
3690 просмотров
schedule 13.12.2023

Как прочитать список стоп-слов из текстового файла в R
Возможный дубликат: Чтение текстового файла в R У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте? Код:...
2073 просмотров
schedule 23.04.2023

Какие слова опустить?
Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений...
256 просмотров
schedule 06.01.2024

Пользовательские стоп-слова для PyLucene
В PyLucene есть фильтр StopFilter , который фильтрует токены на основе заданных стоп-слов. Пример вызова выглядит следующим образом: result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET) Кажется, что заменить аргумент на...
399 просмотров
schedule 08.05.2022

Как настроить список запрещенных слов в Lucene 4.4
Я использую Lucene 4.4 для анализа небольшого корпуса. Я пробовал StopAnalyzer и StopAnalyzer. Однако многие термины, которые мне не нужны, по-прежнему отображаются в моем результате. Например, «Я», «мы», «x» и т. Д. Итак, мне нужно настроить...
2386 просмотров
schedule 08.02.2022

Как удалить неанглийские слова с помощью RapidMiner
Я выполняю интеллектуальный анализ текста в RapidMiner. Я просматриваю веб-сайт и выполняю некоторые задачи предварительной обработки, такие как токенизация, перевод в нижний регистр и фильтрация английских стоп-слов; но все же я получаю некоторые...
1582 просмотров

Удаление стоп-слов из строки в Java
У меня есть строка с большим количеством слов, и у меня есть текстовый файл, содержащий несколько стоп-слов, которые мне нужно удалить из моей строки. Допустим, у меня есть строка s="I love this phone, its super fast and there's so much new and...
29210 просмотров
schedule 27.06.2022

Как использовать стоп-слово при предварительной обработке txt-файла
Я пытаюсь написать код, который будет обрабатывать текст и в конечном итоге индексировать их все. Сначала мне нужно удалить неалфавитные символы и знаки препинания и преобразовать заглавные буквы в строчные, а затем удалить стоп-слова. Вот что я...
1845 просмотров
schedule 15.10.2022

объект фильтра в python 3.X
В python 3.X я писал следующие коды: Одна функция для "text_tokenizing" и другая для "удаления лишних символов". В функции «remove_characters_after_tokenization» я использовал «фильтр». Моя проблема: когда я запускаю свой проект, я вижу эту...
2058 просмотров
schedule 15.04.2024

Как добавить пользовательский список стоп-слов в StopWordsRemover
Я использую класс pyspark.ml.feature.StopWordsRemover в своем фрейме данных pyspark. Он имеет идентификатор и текстовый столбец. В дополнение к предоставленному списку стоп-слов по умолчанию я хотел бы добавить свой собственный список, чтобы удалить...
4437 просмотров

Запретить tm удалять стоп-слова из двойных слов
Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется. Есть ли способ избежать...
64 просмотров
schedule 30.07.2023

Как хранить то, что сгенерировано анализатором?
Допустим, я использую это отображение: PUT test { "settings" : { "index" : { "number_of_shards" : 1, "number_of_replicas" : 0 } }, "mappings": { "testtype": { "properties": { "content": {...
63 просмотров
schedule 20.04.2024

Проблемы с реализацией стоп-слов в nltk
После импорта стоп-слов из корпуса я загрузил все файлы из nltk.download(), а затем #reading from a .txt file list = [] with open("positive.txt", "r") as file: for words in file: words = words.strip()...
525 просмотров
schedule 01.10.2022

Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer
Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer. Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...
81 просмотров

(R) О запрещенных словах в DocumentTermMatrix
У меня есть несколько вопросов о DocumentTermMatrix() и о его запрещенных словах. Я набрал, как показано ниже, но не смог получить желаемых результатов. text <- "text is my text but also his text." mycorpus <- VCorpus(VectorSource(text))...
608 просмотров
schedule 26.03.2022

Python 3 решает фрейм данных
Я пытаюсь удалить стоп-слова из CSV-файла, содержащего арабские предложения, но я не уверен, что получил много ошибок мой код print(tokenized_docs_no_punctuation) stops = set(stopwords.words('arabic'))...
43 просмотров
schedule 28.10.2022

Список стоп-слов для r
stopwords (из пакета tm ) возвращает различные виды игнорируемых слов с поддержкой разных языков. Например. stopwords() возвращает 175 английских стоп-слов. Я хотел бы знать, есть ли какие-то инструменты, которые предоставляют больше...
52 просмотров
schedule 22.02.2023

Каков эффективный способ проверить, близко ли текущее слово к слову в строке?
рассмотрим примеры ниже: Пример 1: str1 = "wow...it looks amazing" str2 = "looks amazi" Вы видите, что amazi близко к amazing , str2 опечатка, я хотел написать программу, которая скажет мне, что amazi близко к amazing , тогда в...
103 просмотров