Вопросы по теме 'fuzzy-search'

Очень быстрое получение нечетких совпадений строк из базы данных
У меня есть база данных из ~ 150 000 слов и шаблон (любое отдельное слово), и я хочу получить все слова из базы данных, у которой расстояние Дамерау-Левенштейна между ним и шаблоном меньше заданного числа . Мне нужно сделать это очень быстро ....
4039 просмотров
schedule 07.01.2023

Алгоритм обнаруживает повторяющиеся / похожие строки в корпусе данных, например, в темах электронной почты, в Python
Я загружаю длинный список строк тем моего электронного письма с намерением найти списки адресов электронной почты, членом которых я был много лет назад, и хотел бы удалить их из своей учетной записи Gmail (что становится довольно медленно). Я...
711 просмотров

Нечеткий поиск во время выполнения без использования базы данных \ индекса
Мне нужно отфильтровать поток текстовых статей, проверяя каждую запись на наличие нечетких совпадений с предопределенной строкой (я ищу названия продуктов с ошибками, иногда они имеют другой порядок слов и дополнительные небуквенные символы, такие как...
399 просмотров
schedule 02.03.2022

Нечеткий поиск Lucene по именам клиентов и частичному адресу
Я просмотрел все существующие сообщения с вопросами, но не смог найти что-то особенно важное. У меня есть файл с миллионами записей для имени человека, фамилии, адреса 1, адреса 2, кода страны, даты рождения. Я хотел бы ежедневно проверять свой...
6360 просмотров
schedule 02.10.2023

Нечеткий поиск + инвертированное индексирование
Я изучаю нечеткий поиск и извлекаю информацию из базы данных с помощью инвертированного индексирования. Я изучал инвертированное индексирование и думаю, что оно работает только для ТОЧНОГО соответствия. Представьте ситуацию, что у меня есть строка...
926 просмотров
schedule 13.04.2024

Нечеткий поиск JavaScript
Я работаю над этой фильтрацией, где у меня есть около 50-100 элементов списка. И каждый элемент имеет разметку следующим образом: <li> <input type="checkbox" name="services[]" value="service_id" /> <span...
15599 просмотров
schedule 18.03.2022

Использование токенизатора lucene ngram для нечеткого совпадения фраз
Я пытаюсь добиться нечеткого поиска фраз (чтобы соответствовать словам с ошибками), используя lucene, ссылаясь на различные блоги, которые я думал попробовать индексы ngram для поиска нечетких фраз. Но я не смог найти токенизатор ngram как часть...
1994 просмотров
schedule 05.03.2022

Изменить алгоритм поиска в меню «Пуск» Windows 7?
Мне очень нравится алгоритм поиска с нечетким соответствием, который Sublime Text 2 использует для своей палитры команд, и я надеялся создать что-то похожее, которое работает через поиск в меню «Пуск» Windows 7. Я уже нашел пакет кода Windows...
547 просмотров

Magento SOLR нечеткий поиск
Я использую поиск SOLR в magento и пытаюсь использовать возможности нечеткого поиска SOLR. Но пока, кажется, не повезло. Я пытался использовать тильду (~) в конце поискового запроса, а также пытался использовать «PorterStemFilterFactory», которая...
1025 просмотров

Rails: какой метод / драгоценный камень / плагин rails fuzzy используется для поиска в таблице базы данных с 1 миллионом записей?
У меня есть ~ 1 миллион записей в таблице MySQL. Скоро мне нужно будет добавить поиск в мое приложение Rails 3.x. Я хочу, чтобы поиск был нечетким. На самом деле я использую плагин (rails-fuzzy-search) для другой таблицы, но там всего 3000...
1270 просмотров
schedule 26.07.2023

Нечеткое сопоставление строк, которое можно пропустить? например я (.*). имеет 0 расстояние до Я здесь.
Я пишу чат-бот Python. Независимо от того, что это за метод (Левенштейн, LCS, регулярное выражение и т. д.), я хочу, чтобы шаблон, подобный My name is [ A ]. , был достаточно умным, чтобы соответствовать таким строкам, как: My name is Tslmy....
224 просмотров

Подход Lucene к поиску нечеткой фразы со скорингом
Мое требование - получить оценку соответствия при поиске по нечеткой фразе. Пример 1) Входные данные - Привет, Сэм, как дела? Спасибо, Смит. Проиндексированный документ - Сэм Смит (в документах всегда указываются имена лиц / организаций, а...
770 просмотров

Как объединить префикс и нечеткий поиск в Solr 4.0
Синтаксис solr для нечеткого поиска: q~n, где q — термин запроса, а n — расстояние Левенштейна (например, 1-3). Синтаксис поиска по префиксу: q*, где q — термин запроса, а * указывает на подстановочный знак. Объединение обоих, например...
888 просмотров
schedule 15.05.2022

Нечеткое соответствие нескольких слов в строке
Я пытаюсь использовать Расстояние Левенштейна , чтобы найти нечеткие ключевые слова (статический текст) в OCR. page. Для этого я хочу указать процент допустимых ошибок (скажем, 15%). string Keyword = "past due electric service"; Поскольку...
1494 просмотров
schedule 13.02.2024

нечеткое соответствие слова на странице OCR
У меня есть статическая фраза, которую я ищу в OCR-изображении. string KeywordToFind = "Account Number" string OcrPageText = " GEORGIA POWER A SOUTHERN COMPANY AecountNumber 122- 493 Pagel of2 Please Pay By Jan 29,2014 Total Due...
1244 просмотров

Поиск по имени в ElasticSearch
Скажем, у меня есть индекс с тысячами имен клиентов, и мне нужно иметь возможность легко искать их в панели администрирования, например: John Anders John Smith Sarah Smith Bjarne Stroustrup Я хочу иметь на нем полные возможности поиска, а это...
910 просмотров
schedule 01.02.2023

Наиболее похожая строка
У меня есть около 1000 строк в базе данных. Для моей цели мне нужно найти наиболее похожее из БД. Например, в БД есть строки: Англия Испания Английский Французский Франция Турция Украинский ..... Шотландия и так далее. Исходная...
63 просмотров
schedule 28.05.2024

Нечеткий - NYSIIS Python 3
fuzzy.c:1635:5: ошибка: слишком мало аргументов для функции «PyCode_New». Я обновляюсь с Python 2.7 до 3.2. Я получаю сообщение об ошибке в c-компиляции нечеткой библиотеки (которая, по-видимому, несовместима с Python 3). Какие-либо предложения?...
280 просмотров

Создание нечеткой шахматной игры с использованием Chess Engines
Я пытаюсь спроектировать игру в шахматы , которая будет работать на основе нечеткой логики . Прежде чем сделать ход, я хотел вычислить нечеткую функцию оценки для каждой шахматной фигуры в каждой игре. Нечеткие вычисления основаны на данных,...
555 просмотров

Как нечетко сопоставить только соседние ячейки?
У меня есть строка из 10 000 имен в двух соответствующих столбцах, по 10 000 в каждом. Каждая ячейка в столбце A соответствует соседней ячейке в столбце B. Я хочу провести нечеткое сопоставление и получить оценку совместимости для всех из них только...
480 просмотров