Публикации по теме 'stemming'
Предварительная обработка текстовых данных для машинного обучения: часть 1
Введение
В предыдущей статье мы обсудили различные методы выполнения заполнения семантического слота , очень распространенной проблемы в области обработки естественного языка. Мы обсудили различные методы решения таких проблем, такие как подходы на основе правил и подходы к машинному обучению (включая глубокое обучение), а также обсудили плюсы и минусы каждого метода. Поскольку естественный язык представляет собой сильно неструктурированную форму данных, его необходимо много раз..
Вопросы по теме 'stemming'
Руби: есть ли стеммер, который знает английские неправильные глаголы?
Существует рубиновый стеммер https://github.com/aurelian/ruby-stemmer , но он 1) не содержит английских неправильных глаголов 2) не может создавать собственные расширения для Windows. Есть ли альтернатива, устраняющая хотя бы одну из проблем?
734 просмотров
schedule
28.10.2022
Как обрабатывать словоформы в поиске sphinx
У меня есть сервер sphinx для индексации базы данных mysql для приложения django. Мой поиск работает нормально, но мой контент включает медицинские слова/фразы. Так, например, мне нужен поиск «dvt», чтобы также сопоставить «тромбоз глубоких вен» и...
1213 просмотров
schedule
12.02.2022
Мне нужен стеммер для Java-арабского языка
Я ищу стеммер Java для арабского языка. Я нашел библиотеку под названием «AraMorph», но ее вывод не поддается контролю и создает нежелательные слова.
Есть ли другой стеммер для арабского языка?
4295 просмотров
schedule
04.06.2022
При включенном выделении корней поиск корневого слова не дает совпадений.
Я проиндексировал сайт с помощью solr. Это работает очень хорошо, если стемпинг не включен. Однако, используя определение основы, solr не возвращает совпадений при поиске корня слова. Я использую шведский стемминг.
Например, поиск support дает...
841 просмотров
schedule
12.06.2022
Как использовать StemDocument в пакете tm языка R (текстовый анализ)?
Я пытаюсь заблокировать Корпус, используя StemDocument в пакете tm языка R, который вызывает Java. Я пробовал пример в руководстве tm:
data("crude")
crude[[1]]
stemDocument(crude[[1]])
и получите следующую ошибку:
Could not initialize...
5723 просмотров
schedule
01.02.2022
Создание анализатора Lucene
Я хочу сделать базовый стемминг иврита.
Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк.
Что мне нужно сделать, например, если...
2436 просмотров
schedule
05.12.2022
Требуется объяснение языкового стеммера Solr
Я использую nutch с Solr для разработки поисковой системы для арабских текстов. Мне нужно реализовать стеммер для моих арабских текстов, и при поиске в Solr Stemmer я обнаружил, что он предоставляет эти два фильтра.
<filter...
754 просмотров
schedule
03.08.2022
Как повысить результаты solr на основе исходной строки запроса при использовании стемминга
При использовании определения корней ключевое слово поиска, содержащее слова во множественном числе, например «кошки», преобразуется в «кошка» в запросе синтаксического анализа Solr.
Результат Solr теперь содержит документы, которые соответствуют...
278 просмотров
schedule
02.03.2022
Итальянская библиотека стемминга на java
Я ищу библиотеку Java или что-то, чтобы сделать вывод итальянских строк слов.
Цель - сравнить итальянские слова. В данный момент такие слова, как «attacco», «attacchi», «attaccare» и т. Д., Считаются разными, вместо этого я хочу получить истинное...
2072 просмотров
schedule
22.03.2022
Алгоритм стемминга
у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,
но я не мог найти, в чем разница между understemming и overstemming.
и является ли алгоритм Портера недостаточным или чрезмерным?
у вас есть идея?
заранее спасибо
426 просмотров
schedule
09.01.2024
Пользовательский словарь не работает в endeca
Я пытаюсь добавить настраиваемый словарь в стемминг, но мне не повезло.
Шаги, которые я пробовал:
1) Я добавил следующие строки в /config/script/DataIngest.xml :
<dgidx id="Dgidx" host-id="ITLHost">
<args>
........
453 просмотров
schedule
19.11.2023
Почему Oracle Text Stemming не работает?
Я использую Oracle Text на Oracle 10g. Я создал многоколоночный индекс CONTEXT, как показано ниже:
Мой стол
CREATE TABLE WEB_RES
(
"ID" NUMBER(10,0),
"TITLE" VARCHAR2(256 BYTE),
"DESCRIPTION" VARCHAR2(1024 BYTE),...
982 просмотров
schedule
20.05.2022
Как сделать отображение elasticsearch для поиска как во множественном, так и в единственном числе?
Я использую elasticsearch версии 1.2.1.
Сохраненное значение для атрибута - shoes , а анализатор поля - снежный ком, и, несмотря на все это, ES не находит его, когда я ищу shoes . Когда я ищу shoe , он находит документ...
Это мой запрос:...
1003 просмотров
schedule
12.03.2024
Должен ли я переиндексировать документы в Elasticsearch при смене Stemmer?
Я использую Elasticsearch для индексации своих документов (хотя я считаю, что мой вопрос может относиться и к любой другой поисковой системе, такой как Lucene или Solr).
Я использую стеммер Портера и список стоп-слов во время индексации. Я знаю,...
269 просмотров
schedule
12.11.2023
Вызов стеммера Snowball/Porter2 из T-SQL
Я пытаюсь придумать простой способ для аналитиков в моем офисе вызывать стеммер из MSSQL. Он будет использоваться для создания полей примечаний к основам для двух целей:
для создания обучающих наборов, в которых подсчитываются и агрегируются...
178 просмотров
schedule
22.05.2024
Как настроить SOLR для стемминга
Я изучаю solr и использую solr-5.3.0. Я хочу включить общие стеммеры в solr. Я следовал этому учебнику . Но после внесения изменений в schema.xml при поиске термина я не получил желаемого результата. ТАКЖЕ, есть много schema.xml , и я не уверен,...
1103 просмотров
schedule
20.02.2023
Производительность: повышение точности наивного байесовского классификатора
Я работаю над простым наивным байесовским текстовым классификатором, который использует Коричневый корпус для тестовых и обучающих данных. Пока что я получил точность 53% при использовании простого подхода без какой-либо предварительной обработки....
715 просмотров
schedule
04.04.2024
Как использовать новый алгоритм Snowball .sbl в Python?
Я хочу использовать стеммер литовского языка в Python, однако литовский язык отсутствует в распространенных инструментах, таких как NLTK. .
Однако я смог найти файлы Snowball .sbl литовских стеммеров здесь и здесь .
Но как их использовать...
414 просмотров
schedule
10.06.2024
Удаление дефисов в http, но сохранение дефисных слов в корпусе
Я пытаюсь модифицировать функцию определения основы, которая может 1) удалять дефисы в http (которые появились в корпусе), но при этом 2) сохранять дефисы, которые появляются в значимых дефисных выражениях (например, отнимающих много времени,...
50 просмотров
schedule
20.05.2024
TypeError: translate () принимает ровно 1 аргумент (2 задано) Python
Я нашел этот код Python для выполнения стемминга текстовых файлов.
import nltk
import string
from collections import Counter
def get_tokens():
with open('/Users/MYUSERNAME/Desktop/Test_sp500/A_09.txt', 'r') as shakes:
text =...
1211 просмотров
schedule
02.04.2024