Я пытаюсь добиться нечеткого поиска фраз (чтобы соответствовать словам с ошибками), используя lucene, ссылаясь на различные блоги, которые я думал попробовать индексы ngram для поиска нечетких фраз.
Но я не смог найти токенизатор ngram как часть моей JAR-библиотеки lucene3.4, он устарел и заменен чем-то другим? - в настоящее время я использую стандартный анализатор, где я получаю достойные результаты для точного совпадения терминов.
У меня есть два требования для обработки.
В моем индексе есть документ с фразой «xyz abc pqr», когда я предоставляю запрос «abc xyz» ~ 5, я могу получить результаты, но мое требование состоит в том, чтобы получить результаты для того же документа, даже если у меня есть одно дополнительное слово, например « abc xyz pqr tst" в моем запросе (я понимаю, что оценка совпадения будет немного меньше) - использование дополнительного слова близости во фразе не работает, если я уберу близость и двойные кавычки " " из моего запроса, я получаю ожидаемые результаты (но там Я получаю много ложных срабатываний, таких как документы, содержащие только xyz, только abc и т. д.)
В том же приведенном выше примере, если кто-то ошибся в запросе «abc xxz», я все равно хочу получить результаты для того же документа.
Я хочу попробовать ngram, но не уверен, что он будет работать должным образом.
Есть предположения ?