Вопросы по теме 'snowball'
Стратегия удаления общеупотребительных английских слов
Я хочу извлечь релевантные ключевые слова из html-страницы.
Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.
Но теперь у меня все еще есть много основных...
3690 просмотров
schedule
13.12.2023
ElasticSearch: странное поведение поиска при использовании анализатора снежного кома
Допустим, у меня есть индекс ElasticSearch, определенный следующим образом:
curl -XPUT 'http://localhost:9200/test' -d '{
"mappings": {
"example": {
"properties": {
"text": {
"type": "string",
"analyzer":...
2051 просмотров
schedule
09.08.2023
Итальянская библиотека стемминга на java
Я ищу библиотеку Java или что-то, чтобы сделать вывод итальянских строк слов.
Цель - сравнить итальянские слова. В данный момент такие слова, как «attacco», «attacchi», «attaccare» и т. Д., Считаются разными, вместо этого я хочу получить истинное...
2072 просмотров
schedule
22.03.2022
Elasticsearch как настроить анализатор языка (немецкий) или создать собственный нормализатор
Я использую анализатор немецкого языка для токенизации некоторого контента. Я знаю, что это в основном фильтр макросов для "нижних регистров", "german_stop", "german_keywords", "german_normalization", "german_stemmer".
Моя проблема связана с...
1200 просмотров
schedule
11.08.2023
Как использовать новый алгоритм Snowball .sbl в Python?
Я хочу использовать стеммер литовского языка в Python, однако литовский язык отсутствует в распространенных инструментах, таких как NLTK. .
Однако я смог найти файлы Snowball .sbl литовских стеммеров здесь и здесь .
Но как их использовать...
414 просмотров
schedule
10.06.2024
Передача значения в столбце в качестве параметра при применении с помощью стеммера снежного кома nltk
Передача df[language] работает для стоп-слов, но не для снежного кома. Есть ли способ обойти это?
Я пока не нашла никаких зацепок...
import nltk
from nltk.corpus import stopwords
import pandas as pd
import re
df = pd.DataFrame([['A sentence...
95 просмотров
schedule
20.04.2023