Я просмотрел все существующие сообщения с вопросами, но не смог найти что-то особенно важное.
У меня есть файл с миллионами записей для имени человека, фамилии, адреса 1, адреса 2, кода страны, даты рождения. Я хотел бы ежедневно проверять свой список клиентов с указанным выше файлом (мой список клиентов также обновляется ежедневно и файл также обновляется ежедневно).
Для имени и фамилии я хотел бы нечеткое совпадение (может быть совпадение 90% расстояния lucene fuzzyquery/levenshtein), а для остальных полей страны и даты рождения я хотел точное совпадение.
Я новичок в Lucene, но, глядя на количество сообщений, похоже, что это возможно.
Мои вопросы:
- Как мне проиндексировать входной файл? Мне нужно построить индекс по комбинации FN, LN, страны, даты рождения и использовать индекс для поиска
- Как я могу использовать нечеткий запрос Lucene здесь?
Есть ли другой способ реализовать то же самое?