Я ищу алгоритм или, по крайней мере, теорию работы о том, как найти похожий текст в двух или более разных строках ...
Подобно заданному здесь вопросу: Алгоритм поиска статей с похожим текстом, разница в том, что что мои текстовые строки всегда будут состоять только из горстки слов.
Например, у меня есть строка: «В ясное голубое небо», и я сравниваю следующие две строки: «Цвет небесно-голубой» и «В голубом ясном небе»
Я ищу алгоритм, который можно использовать для сопоставления текста в двух, и решить, насколько они совпадают. В моем случае орфография и пунктуация будут важны. Я не хочу, чтобы они влияли на способность открывать настоящий текст. В приведенном выше примере, если цветовая ссылка сохраняется как «небесно-голубой», я хочу, чтобы она по-прежнему могла соответствовать. Однако третья указанная строка должна быть ЛУЧШЕ совпадения по сравнению со второй и т. Д.
Я уверен, что такие места, как Google, вероятно, используют что-то подобное с функцией "Возможно, вы имели в виду:" ...
* РЕДАКТИРОВАТЬ *
В разговоре с другом он работал с парнем, который написал статью на эту тему. Я подумал, что могу поделиться им со всеми, кто это читает, поскольку в нем описаны несколько действительно хороших методов и процессов ...
Вот ссылка на его статью, я надеюсь, что она будет полезна тем, кто читает этот вопрос, и по теме аналогичных строковых алгоритмов.