Интеграция лемматизации в Sphinx

У меня есть база данных MySQL с несколькими сотнями тысяч текстовых документов, и мне нужно выполнить поиск по этим текстовым файлам. Я решил использовать Sphinx для реализации функции поиска. Однако мне нужно, чтобы пользователи могли найти все различные формы поискового запроса. Я написал лемматизатор на питоне, который может давать довольно точные результаты, мой вопрос: как его интегрировать со Sphinx? Помощь очень признательна.

РЕДАКТИРОВАТЬ: поскольку ответов еще не было, я хотел бы добавить, что такие комментарии, как «это действительно сложно» или «это невозможно», также будут оценены. Если есть проблема с моей идеей, было бы хорошо знать :)


person root    schedule 05.05.2012    source источник
comment
Я подозреваю, что причина, по которой у вас нет ответов, в том, что никто на самом деле не знает, о чем вы спрашиваете. лемматизация - довольно специализированная тема и, вероятно, не так хорошо изучена. Возможно, если бы вы расширили вопрос, включив пример, чтобы помочь визуализировать то, что вы пытаетесь сделать.   -  person barryhunter    schedule 11.06.2012


Ответы (1)


Я знаю, что вопрос старый, но он все еще здесь, так что...

Sphinx теперь имеет встроенную поддержку лемматизаторов и стеммеров. В настоящее время лемматизатор имеет английский, немецкий и русский словари. Я не уверен в формате словарей, поэтому я не уверен, насколько сложно будет добавить дополнительные языки (хотя стеммеры поддерживают несколько других языков).

person Tim Tisdall    schedule 26.01.2016