Публикации по теме 'stemming'


Предварительная обработка текстовых данных для машинного обучения: часть 1
Введение В предыдущей статье мы обсудили различные методы выполнения заполнения семантического слота , очень распространенной проблемы в области обработки естественного языка. Мы обсудили различные методы решения таких проблем, такие как подходы на основе правил и подходы к машинному обучению (включая глубокое обучение), а также обсудили плюсы и минусы каждого метода. Поскольку естественный язык представляет собой сильно неструктурированную форму данных, его необходимо много раз..

Вопросы по теме 'stemming'

Руби: есть ли стеммер, который знает английские неправильные глаголы?
Существует рубиновый стеммер https://github.com/aurelian/ruby-stemmer , но он 1) не содержит английских неправильных глаголов 2) не может создавать собственные расширения для Windows. Есть ли альтернатива, устраняющая хотя бы одну из проблем?
734 просмотров
schedule 28.10.2022

Как обрабатывать словоформы в поиске sphinx
У меня есть сервер sphinx для индексации базы данных mysql для приложения django. Мой поиск работает нормально, но мой контент включает медицинские слова/фразы. Так, например, мне нужен поиск «dvt», чтобы также сопоставить «тромбоз глубоких вен» и...
1213 просмотров

Мне нужен стеммер для Java-арабского языка
Я ищу стеммер Java для арабского языка. Я нашел библиотеку под названием «AraMorph», но ее вывод не поддается контролю и создает нежелательные слова. Есть ли другой стеммер для арабского языка?
4295 просмотров
schedule 04.06.2022

При включенном выделении корней поиск корневого слова не дает совпадений.
Я проиндексировал сайт с помощью solr. Это работает очень хорошо, если стемпинг не включен. Однако, используя определение основы, solr не возвращает совпадений при поиске корня слова. Я использую шведский стемминг. Например, поиск support дает...
841 просмотров
schedule 12.06.2022

Как использовать StemDocument в пакете tm языка R (текстовый анализ)?
Я пытаюсь заблокировать Корпус, используя StemDocument в пакете tm языка R, который вызывает Java. Я пробовал пример в руководстве tm: data("crude") crude[[1]] stemDocument(crude[[1]]) и получите следующую ошибку: Could not initialize...
5723 просмотров
schedule 01.02.2022

Создание анализатора Lucene
Я хочу сделать базовый стемминг иврита. Все примеры настраиваемых анализаторов, которые я мог найти, всегда объединяют другие анализаторы и фильтры, но никогда не выполняют никакой обработки на уровне строк. Что мне нужно сделать, например, если...
2436 просмотров
schedule 05.12.2022

Требуется объяснение языкового стеммера Solr
Я использую nutch с Solr для разработки поисковой системы для арабских текстов. Мне нужно реализовать стеммер для моих арабских текстов, и при поиске в Solr Stemmer я обнаружил, что он предоставляет эти два фильтра. <filter...
754 просмотров
schedule 03.08.2022

Как повысить результаты solr на основе исходной строки запроса при использовании стемминга
При использовании определения корней ключевое слово поиска, содержащее слова во множественном числе, например «кошки», преобразуется в «кошка» в запросе синтаксического анализа Solr. Результат Solr теперь содержит документы, которые соответствуют...
278 просмотров
schedule 02.03.2022

Итальянская библиотека стемминга на java
Я ищу библиотеку Java или что-то, чтобы сделать вывод итальянских строк слов. Цель - сравнить итальянские слова. В данный момент такие слова, как «attacco», «attacchi», «attaccare» и т. Д., Считаются разными, вместо этого я хочу получить истинное...
2072 просмотров
schedule 22.03.2022

Алгоритм стемминга
у меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете, но я не мог найти, в чем разница между understemming и overstemming. и является ли алгоритм Портера недостаточным или чрезмерным? у вас есть идея? заранее спасибо
426 просмотров
schedule 09.01.2024

Пользовательский словарь не работает в endeca
Я пытаюсь добавить настраиваемый словарь в стемминг, но мне не повезло. Шаги, которые я пробовал: 1) Я добавил следующие строки в /config/script/DataIngest.xml : <dgidx id="Dgidx" host-id="ITLHost"> <args> ........
453 просмотров
schedule 19.11.2023

Почему Oracle Text Stemming не работает?
Я использую Oracle Text на Oracle 10g. Я создал многоколоночный индекс CONTEXT, как показано ниже: Мой стол CREATE TABLE WEB_RES ( "ID" NUMBER(10,0), "TITLE" VARCHAR2(256 BYTE), "DESCRIPTION" VARCHAR2(1024 BYTE),...
982 просмотров
schedule 20.05.2022

Как сделать отображение elasticsearch для поиска как во множественном, так и в единственном числе?
Я использую elasticsearch версии 1.2.1. Сохраненное значение для атрибута - shoes , а анализатор поля - снежный ком, и, несмотря на все это, ES не находит его, когда я ищу shoes . Когда я ищу shoe , он находит документ... Это мой запрос:...
1003 просмотров
schedule 12.03.2024

Должен ли я переиндексировать документы в Elasticsearch при смене Stemmer?
Я использую Elasticsearch для индексации своих документов (хотя я считаю, что мой вопрос может относиться и к любой другой поисковой системе, такой как Lucene или Solr). Я использую стеммер Портера и список стоп-слов во время индексации. Я знаю,...
269 просмотров
schedule 12.11.2023

Вызов стеммера Snowball/Porter2 из T-SQL
Я пытаюсь придумать простой способ для аналитиков в моем офисе вызывать стеммер из MSSQL. Он будет использоваться для создания полей примечаний к основам для двух целей: для создания обучающих наборов, в которых подсчитываются и агрегируются...
178 просмотров
schedule 22.05.2024

Как настроить SOLR для стемминга
Я изучаю solr и использую solr-5.3.0. Я хочу включить общие стеммеры в solr. Я следовал этому учебнику . Но после внесения изменений в schema.xml при поиске термина я не получил желаемого результата. ТАКЖЕ, есть много schema.xml , и я не уверен,...
1103 просмотров
schedule 20.02.2023

Производительность: повышение точности наивного байесовского классификатора
Я работаю над простым наивным байесовским текстовым классификатором, который использует Коричневый корпус для тестовых и обучающих данных. Пока что я получил точность 53% при использовании простого подхода без какой-либо предварительной обработки....
715 просмотров

Как использовать новый алгоритм Snowball .sbl в Python?
Я хочу использовать стеммер литовского языка в Python, однако литовский язык отсутствует в распространенных инструментах, таких как NLTK. . Однако я смог найти файлы Snowball .sbl литовских стеммеров здесь и здесь . Но как их использовать...
414 просмотров
schedule 10.06.2024

Удаление дефисов в http, но сохранение дефисных слов в корпусе
Я пытаюсь модифицировать функцию определения основы, которая может 1) удалять дефисы в http (которые появились в корпусе), но при этом 2) сохранять дефисы, которые появляются в значимых дефисных выражениях (например, отнимающих много времени,...
50 просмотров
schedule 20.05.2024

TypeError: translate () принимает ровно 1 аргумент (2 задано) Python
Я нашел этот код Python для выполнения стемминга текстовых файлов. import nltk import string from collections import Counter def get_tokens(): with open('/Users/MYUSERNAME/Desktop/Test_sp500/A_09.txt', 'r') as shakes: text =...
1211 просмотров
schedule 02.04.2024