Как комбинировать TF-IDF с расстоянием редактирования или расстоянием Яро-Винклера

Я ищу способы повысить точность схемы взвешивания TF-IDF при сопоставлении строк (сходстве). Основная проблема заключается в том, что TF-IDF чувствителен к типографским ошибкам в сообщениях, а большинство больших наборов данных, как правило, содержат опечатки. Я понял, что варианты расстояния редактирования (метрики сходства на основе символов --- левиенштейн, аффинный газ, Яро и Яро-винклер) подходят для вычисления сходства между строками, где есть опечатки, но не подходят, когда слова не по порядку в струны.

Следовательно, я хотел бы использовать возможность коррекции расстояния редактирования для повышения точности TF-IDF.

Любые идеи о том, как решить эту проблему, будут высоко оценены.

Заранее спасибо.


person user2274879    schedule 12.04.2013    source источник
comment
код. google.com/p/pupsniffer/source/browse/PupSniffer/src/com/   -  person Neil McGuigan    schedule 24.09.2014


Ответы (1)


Исследователи CMU опубликовали документ в 2003 году, и они объяснили, как объединить TFIDF с Jaro-Winkler: https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

Их код Java также доступен на sourceforge в виде проекта secondString: https://sourceforge.net/projects/secondstring/

Вот ссылка на Javadocs: http://secondstring.sourceforge.net/javadoc/

Страница проекта secondString: http://secondstring.sourceforge.net/

person Amin    schedule 08.09.2016