Я добываю данные с торговой платформы подержанных камер.
Одни и те же продукты люди называют по-разному. Данные, которые я получил, следующие:
...
Canon 50mm f1.4
Canon 50mm 1.4
Canon 50mm 1.4 USM
Canon 70-200mm f4L
Canon 70-200mm f4 L
...
many more
Моя цель — научить систему распознавать item 1-3
как один продукт, а item 4-5
— как другой. В моем наборе данных я не знаю, сколько разных продуктов есть.
Я прочитал этот ответ.
Это предполагает, что Bayesian classification
полезен. Однако, учитывая, что я не знаю, сколько там продуктов, я не мог предоставить обучающий набор.
Другой ответ предполагает, что clustering
следует использовать для группировки продуктов с похожим названием. Опять же, K-means
можно использовать только тогда, когда известно K
(количество различных продуктов в данном случае).
Итак, в моем случае, какой алгоритм можно использовать? а не могли бы вы пояснить на примере моих данных? Спасибо!