Как комбинировать TF-IDF с расстоянием редактирования или расстоянием Яро-Винклера

Я ищу способы повысить точность схемы взвешивания TF-IDF при сопоставлении строк (сходстве). Основная проблема заключается в том, что TF-IDF чувствителен к типографским ошибкам в сообщениях, а большинство больших наборов данных, как правило, содержат опечатки. Я понял, что варианты расстояния редактирования (метрики сходства на основе символов --- левиенштейн, аффинный газ, Яро и Яро-винклер) подходят для вычисления сходства между строками, где есть опечатки, но не подходят, когда слова не по порядку в струны.

Следовательно, я хотел бы использовать возможность коррекции расстояния редактирования для повышения точности TF-IDF.

Любые идеи о том, как решить эту проблему, будут высоко оценены.

Заранее спасибо.

user2274879 12.04.2013 источник

comment

код. google.com/p/pupsniffer/source/browse/PupSniffer/src/com/ - Neil McGuigan 24.09.2014

Ответы (1)

arrow_upward
0
arrow_downward

Исследователи CMU опубликовали документ в 2003 году, и они объяснили, как объединить TFIDF с Jaro-Winkler: https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

Их код Java также доступен на sourceforge в виде проекта secondString: https://sourceforge.net/projects/secondstring/

Вот ссылка на Javadocs: http://secondstring.sourceforge.net/javadoc/

Страница проекта secondString: http://secondstring.sourceforge.net/

Amin 08.09.2016

Как комбинировать TF-IDF с расстоянием редактирования или расстоянием Яро-Винклера

Ответы (1)

Похожие вопросы