Алгоритм, идентифицирующий один и тот же продукт с (немного) разными именами

Я добываю данные с торговой платформы подержанных камер.

Одни и те же продукты люди называют по-разному. Данные, которые я получил, следующие:

...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more 

Моя цель — научить систему распознавать item 1-3 как один продукт, а item 4-5 — как другой. В моем наборе данных я не знаю, сколько разных продуктов есть.

Я прочитал этот ответ.

Это предполагает, что Bayesian classification полезен. Однако, учитывая, что я не знаю, сколько там продуктов, я не мог предоставить обучающий набор.

Другой ответ предполагает, что clustering следует использовать для группировки продуктов с похожим названием. Опять же, K-means можно использовать только тогда, когда известно K (количество различных продуктов в данном случае).

Итак, в моем случае, какой алгоритм можно использовать? а не могли бы вы пояснить на примере моих данных? Спасибо!


person MK Yung    schedule 24.05.2014    source источник
comment
Возможны функции редактирования расстояния, такие как Damerau-Levenshtein. Биграммы - еще одна возможность. Но вы задаете довольно широкий вопрос. Практически есть книги на эту тему (Record Linkage).   -  person hatchet - done with SOverflow    schedule 24.05.2014
comment
@топор, я не согласен. Cannon 1.5 будет классифицироваться как намного ближе к Cannon 1.4, чем Cannon 1.4 USM, используя расстояние редактирования. Однако это может быть одним из признаков классификации или исходным фильтром (но не сам по себе).   -  person amit    schedule 24.05.2014
comment
@амит - ты прав. Но я ожидаю, что есть контрпримеры для любого метода нечеткого сопоставления, который слеп к предметным знаниям. Я согласен с тем, что просто использовать один такой готовый алгоритм, вероятно, будет недостаточно. Но эти алгоритмы можно использовать в более комплексном решении. Вот почему я предложил их в комментарии вместо ответа.   -  person hatchet - done with SOverflow    schedule 24.05.2014