Вопросы по теме 'stop-words'
Стоп-слова и полный текст логических значений MySQL
Я использую встроенные в mysql логические полнотекстовые функции для поиска в наборе данных. (ПОИСКПОЗ... ПРОТИВ синтаксиса).
Я столкнулся с проблемой, когда ключевые слова, которые находятся в списке стоп-слов MySql по умолчанию, не возвращают...
1742 просмотров
schedule
09.10.2022
Стратегия удаления общеупотребительных английских слов
Я хочу извлечь релевантные ключевые слова из html-страницы.
Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.
Но теперь у меня все еще есть много основных...
3690 просмотров
schedule
13.12.2023
Как прочитать список стоп-слов из текстового файла в R
Возможный дубликат: Чтение текстового файла в R
У меня есть собственный список стоп-слов, который находится в текстовом файле, разделенном символом новой строки. Как я могу использовать этот файл в своем R-скрипте?
Код:...
2073 просмотров
schedule
23.04.2023
Какие слова опустить?
Я пытаюсь найти некоторую меру сходства между двумя предложениями. Для этого я использую индивидуальное семантическое сходство двух слов. Но в словаре много слов, которые я составляю из имеющихся у меня предложений. Я хочу исключить из предложений...
256 просмотров
schedule
06.01.2024
Пользовательские стоп-слова для PyLucene
В PyLucene есть фильтр StopFilter , который фильтрует токены на основе заданных стоп-слов. Пример вызова выглядит следующим образом:
result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)
Кажется, что заменить аргумент на...
399 просмотров
schedule
08.05.2022
Как настроить список запрещенных слов в Lucene 4.4
Я использую Lucene 4.4 для анализа небольшого корпуса. Я пробовал StopAnalyzer и StopAnalyzer. Однако многие термины, которые мне не нужны, по-прежнему отображаются в моем результате. Например, «Я», «мы», «x» и т. Д. Итак, мне нужно настроить...
2386 просмотров
schedule
08.02.2022
Как удалить неанглийские слова с помощью RapidMiner
Я выполняю интеллектуальный анализ текста в RapidMiner. Я просматриваю веб-сайт и выполняю некоторые задачи предварительной обработки, такие как токенизация, перевод в нижний регистр и фильтрация английских стоп-слов; но все же я получаю некоторые...
1582 просмотров
schedule
20.10.2022
Удаление стоп-слов из строки в Java
У меня есть строка с большим количеством слов, и у меня есть текстовый файл, содержащий несколько стоп-слов, которые мне нужно удалить из моей строки. Допустим, у меня есть строка
s="I love this phone, its super fast and there's so much new and...
29210 просмотров
schedule
27.06.2022
Как использовать стоп-слово при предварительной обработке txt-файла
Я пытаюсь написать код, который будет обрабатывать текст и в конечном итоге индексировать их все. Сначала мне нужно удалить неалфавитные символы и знаки препинания и преобразовать заглавные буквы в строчные, а затем удалить стоп-слова.
Вот что я...
1845 просмотров
schedule
15.10.2022
объект фильтра в python 3.X
В python 3.X я писал следующие коды:
Одна функция для "text_tokenizing" и другая для "удаления лишних символов". В функции «remove_characters_after_tokenization» я использовал «фильтр».
Моя проблема: когда я запускаю свой проект, я вижу эту...
2058 просмотров
schedule
15.04.2024
Как добавить пользовательский список стоп-слов в StopWordsRemover
Я использую класс pyspark.ml.feature.StopWordsRemover в своем фрейме данных pyspark. Он имеет идентификатор и текстовый столбец. В дополнение к предоставленному списку стоп-слов по умолчанию я хотел бы добавить свой собственный список, чтобы удалить...
4437 просмотров
schedule
05.02.2024
Запретить tm удалять стоп-слова из двойных слов
Я пытаюсь удалить стоп-слова из вектора символов. Но проблема, с которой я столкнулся, заключается в том, что есть слово «king kond». Поскольку «король» является одним из стоп-слов, «король» в «кинг-конге» удаляется.
Есть ли способ избежать...
64 просмотров
schedule
30.07.2023
Как хранить то, что сгенерировано анализатором?
Допустим, я использую это отображение:
PUT test
{
"settings" : {
"index" : {
"number_of_shards" : 1,
"number_of_replicas" : 0
}
},
"mappings": {
"testtype": {
"properties": {
"content": {...
63 просмотров
schedule
20.04.2024
Проблемы с реализацией стоп-слов в nltk
После импорта стоп-слов из корпуса я загрузил все файлы из nltk.download(), а затем
#reading from a .txt file
list = []
with open("positive.txt", "r") as file:
for words in file:
words = words.strip()...
525 просмотров
schedule
01.10.2022
Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer
Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer.
Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...
81 просмотров
schedule
21.10.2022
(R) О запрещенных словах в DocumentTermMatrix
У меня есть несколько вопросов о DocumentTermMatrix() и о его запрещенных словах. Я набрал, как показано ниже, но не смог получить желаемых результатов.
text <- "text is my text but also his text."
mycorpus <- VCorpus(VectorSource(text))...
608 просмотров
schedule
26.03.2022
Python 3 решает фрейм данных
Я пытаюсь удалить стоп-слова из CSV-файла, содержащего арабские предложения, но я не уверен, что получил много ошибок
мой код
print(tokenized_docs_no_punctuation)
stops = set(stopwords.words('arabic'))...
43 просмотров
schedule
28.10.2022
Список стоп-слов для r
stopwords (из пакета tm ) возвращает различные виды игнорируемых слов с поддержкой разных языков. Например.
stopwords()
возвращает 175 английских стоп-слов. Я хотел бы знать, есть ли какие-то инструменты, которые предоставляют больше...
52 просмотров
schedule
22.02.2023
Каков эффективный способ проверить, близко ли текущее слово к слову в строке?
рассмотрим примеры ниже:
Пример 1:
str1 = "wow...it looks amazing"
str2 = "looks amazi"
Вы видите, что amazi близко к amazing , str2 опечатка, я хотел написать программу, которая скажет мне, что amazi близко к amazing , тогда в...
103 просмотров
schedule
12.10.2023