Алгоритмы подобия строк?

Похоже, вам нужно какое-то нечеткое соответствие. Вот реализация на Java некоторого набора показателей сходства http://web.archive.org/web/20081224234350/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html. Вот более подробное объяснение строковых показателей http://www.cs.cmu.edu/~wcohen/postscript/ijcai-ws-2003.pdf это зависит от того, насколько нечеткой и быстрой должна быть ваша реализация.

Community 26.08.2010

comment

@PascalKlein Архивная страница доступна на Wayback Machine. Я обновил ссылку на http://web.archive.org/web/20081224234350/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html - Rob W; 23.03.2013

comment

Существует levenshtein, и вы можете попробовать обрезать его, используя показатель сходства, такой как Wu-Palmer (wup), который использует уважаемый Wordnet. Стэнфордское НЛП для Java - это готово. Также есть шаблон, scipy, numpy; gensim для Python. Вычисление Левенштейна лучше всего производить по диагонали матрицы. - Andrew Scott Evans; 04.10.2015

arrow_upward
27
arrow_downward

Я бы порекомендовал расстояние Левенштейна. Он вычисляет минимальное количество операций, которые необходимо выполнить, чтобы преобразовать одну строку в другую. Меньшее количество изменений означает, что струны более похожи ...

Peter 26.08.2010

comment

Расстояние Левенштейна и все его перестановки (например, Дам-Лев) работают ужасно, даже QuickSilver превосходит его в самых простых сравнениях. См. stackoverflow.com/questions/3338889/ - Robin Rodricks; 26.08.2010

comment

@Jenko: Вы говорите, что расстояние Левенштейна ужасно работает, но вы не даете никаких критериев для определения того, что хорошо, а что плохо. Учитывая, что расстояние Левенштейна в значительной степени является алгоритмом архетипического сходства строк, вам следует уточнить свой вопрос. - j_random_hacker; 30.08.2010

comment

@j_random_hacker: Отредактировал ваш пост, чтобы показать вам, почему. Я связал вас с вопросом, который содержал те же результаты, почему вы не прочитали, что я не понимаю. - Robin Rodricks; 31.08.2010

comment

@Jenko: (1) Это не мой пост. (2) Ошибочность не является значимым критерием. Я понимаю, что вы недовольны результатами, но вам нужно точно объяснить, какие типы сходства вы ищете. И, кстати, вы обычно устанавливаете верхнюю границу расстояния Lev, чтобы в вашем примере возвращались только ответы 1-3. - j_random_hacker; 01.09.2010

comment

Я использую расстояние Левенштейна для проекта, над которым сейчас работаю, и оно оказалось далеко не идеальным для этого варианта использования. Я обнаружил, что знание того, сколько букв в строке соответствует совпадению, так же важно, как сопоставление тех же букв в строке в том же порядке, что, по сути, является тем, что делает расстояние редактирования. - Legit Stack; 24.05.2016

arrow_upward
9
arrow_downward

Если основное внимание уделяется производительности, я бы реализовал алгоритм, основанный на структуре trie
(хорошо работает, чтобы найти слова в тексте или помочь исправить слово, но в вашем случае вы можете быстро найти все слова, содержащие данное слово, или, например, все, кроме одной буквы).

Сначала перейдите по ссылке в Википедии выше .Tries - это самый быстрый метод сортировки слов (n слов, поиск s, O (n) для создания trie, O (1) для поиска s (или, если вы предпочитаете, если a - средняя длина, O (an) для дерева и O (s) для поиска)).

Быстрая и простая реализация (для оптимизации) вашей проблемы (похожие слова) состоит из

Составьте trie со списком слов, указав все буквы спереди и сзади (см. Пример ниже)
Для поиска s выполните итерацию от s [0], чтобы найти слово в дереве, затем s [1] и т. Д.
В дереве, если число найденных букв равно len (s) - k, отображается слово, где k - допуск (1 буква отсутствует, 2 ...).
Алгоритм может быть расширен до слов в списке (см. Ниже)

Например, со словами car, vars.

Построение дерева (большая буква означает, что слово здесь заканчивается, а другая может продолжаться). > - это постиндекс (переход вперед), а < - предварительный индекс (переход назад). В другом примере нам, возможно, придется указать также начальную букву, она здесь не представлена для ясности.
Например, < и > в C ++ будут Mystruct *previous,*next, то есть от a > c < r, вы можете перейти непосредственно от a к c, и наоборот, также с a на R.

  1.  c < a < R
  2.  a > c < R
  3.    > v < r < S
  4.  R > a > c
  5.        > v < S
  6.  v < a < r < S
  7.  S > r > a > v

Если искать строго car, дерево дает вам доступ с 1., и вы найдете car (вы бы также нашли все, что начинается с car, но также что-нибудь с автомобилем внутри - этого нет в примере - но, например, vicar можно было бы найти в c > i > v < a < R).

Чтобы выполнить поиск с допуском неправильной / отсутствующей 1 буквы, вы выполняете итерацию от каждой буквы s и подсчитываете количество последовательных - или пропуская 1 букву - букв, которые вы получаете от s < / em> в дереве.

ищу car,

c: поиск в дереве файлов c < a и c < r (пропущенная буква в s). Чтобы принять неправильную букву в слове w, попробуйте на каждой итерации перескакивать на неправильную букву, чтобы увидеть, не отстает ли ar, это O (w). С двумя буквами, O (w ²) и т. Д., Но к дереву можно добавить еще один уровень индекса, чтобы учесть переход по буквам, в результате чего дерево сложный и жадный в отношении памяти.

a, затем r: то же, что и выше, но также поиск в обратном направлении

Это просто для того, чтобы дать представление о принципе - в приведенном выше примере могут быть некоторые сбои (завтра я еще раз проверю).

Community 26.08.2010

arrow_upward
1
arrow_downward

Вы могли сделать это:

Foreach string in haystack Do offset := -1; matchedCharacters := 0; Foreach char in needle Do offset := PositionInString(string, char, offset+1); If offset = -1 Then Break; End; matchedCharacters := matchedCharacters + 1; End; If matchedCharacters > 0 Then // (partial) match found End; End;

С помощью matchedCharacters вы можете определить «степень» соответствия. Если он равен длине иглы, все символы в игле также находятся в строке. Если вы также сохраняете смещение первого сопоставленного символа, вы также можете отсортировать результат по «плотности» сопоставленных символов, вычитая смещение первого сопоставленного символа из смещения последнего сопоставленного символа смещение ; чем меньше разница, тем плотнее совпадение.

Community 26.08.2010

comment

@Jenko: Что ты имеешь в виду? Поиск является линейным, поэтому проверяется каждая строка в списке строк. - Gumbo; 26.08.2010

comment

Что значит PositionInString? - Moritz Schmitz v. Hülst; 16.06.2015

comment

@ MoritzSchmitzv.Hülst PositionInString - это функция, которая возвращает позицию индекса char в string, начиная с offset. - Gumbo; 16.06.2015

arrow_upward

arrow_downward

comment

Я думаю, он просит алгоритмы, а не реализацию решения. - Giulio Caccin; 25.07.2017

Алгоритмы подобия строк?

Ответы (5)

Похожие вопросы