Вопросы по теме 'snowball'

Стратегия удаления общеупотребительных английских слов
Я хочу извлечь релевантные ключевые слова из html-страницы. Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene. Но теперь у меня все еще есть много основных...
3690 просмотров
schedule 13.12.2023

ElasticSearch: странное поведение поиска при использовании анализатора снежного кома
Допустим, у меня есть индекс ElasticSearch, определенный следующим образом: curl -XPUT 'http://localhost:9200/test' -d '{ "mappings": { "example": { "properties": { "text": { "type": "string", "analyzer":...
2051 просмотров
schedule 09.08.2023

Итальянская библиотека стемминга на java
Я ищу библиотеку Java или что-то, чтобы сделать вывод итальянских строк слов. Цель - сравнить итальянские слова. В данный момент такие слова, как «attacco», «attacchi», «attaccare» и т. Д., Считаются разными, вместо этого я хочу получить истинное...
2072 просмотров
schedule 22.03.2022

Elasticsearch как настроить анализатор языка (немецкий) или создать собственный нормализатор
Я использую анализатор немецкого языка для токенизации некоторого контента. Я знаю, что это в основном фильтр макросов для "нижних регистров", "german_stop", "german_keywords", "german_normalization", "german_stemmer". Моя проблема связана с...
1200 просмотров
schedule 11.08.2023

Как использовать новый алгоритм Snowball .sbl в Python?
Я хочу использовать стеммер литовского языка в Python, однако литовский язык отсутствует в распространенных инструментах, таких как NLTK. . Однако я смог найти файлы Snowball .sbl литовских стеммеров здесь и здесь . Но как их использовать...
414 просмотров
schedule 10.06.2024

Передача значения в столбце в качестве параметра при применении с помощью стеммера снежного кома nltk
Передача df[language] работает для стоп-слов, но не для снежного кома. Есть ли способ обойти это? Я пока не нашла никаких зацепок... import nltk from nltk.corpus import stopwords import pandas as pd import re df = pd.DataFrame([['A sentence...
95 просмотров
schedule 20.04.2023