Семантический анализ с помощью Solr

Я подумываю о добавлении семантического анализа в свою установку Solr, но точно не знаю, с чего начать.

По сути, я бы хотел, чтобы Solr мог находить «похожие» слова (взятые из тела проиндексированных документов). Например, если я ищу «музыка», я должен иметь возможность запросить семантический движок и получить «рок», «поп» и т. д. (конечно, если эти слова появляются рядом с музыкой в ​​некоторых проиндексированных документах).

Я нашел этот проект, но не знаю, с чего начать: http://code.google.com/p/semanticvectors/


person Enrico Detoma    schedule 21.07.2009    source источник


Ответы (2)


Вы можете использовать пакет Lucene Wordnet для просмотра для синонимов.

Оптимизация возможностей поиска в Lucene и Solr предоставляет другие способы расширения запросов.

person Yuval F    schedule 21.07.2009

Семантическое индексирование — хорошее место для начала. Однако, по моему опыту, на практике такие технологии работают не так хорошо. Вы часто получаете очень странные результаты. Кроме того, из-за Google у людей есть определенные ожидания относительно того, как должен вести себя поиск по ключевым словам, т. е. ваш поисковый запрос должен появиться в соответствующем документе.

person bajafresh4life    schedule 21.07.2009