Кластеризация по значениям сходства косинусов

Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения между 0-1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе значений косинусного сходства, чтобы найти из похожих URL-адресов. Какой алгоритм кластеризации будет наиболее подходящим?. Пожалуйста, предложите мне метод динамической кластеризации, потому что он будет полезен, поскольку я могу увеличить количество URL-адресов по запросу, а также это будет более естественным. Пожалуйста, поправьте меня, если вы чувствуете, что я' м продвигаюсь вперед неправильно. Спасибо в ожидании.


person Sasikumar Rengasamy    schedule 30.04.2011    source источник


Ответы (1)


Кластеризацию K-средних можно использовать для онлайн-обучения, нужно только заранее выбрать количество кластеров. Кроме того, я думаю, что вы не должны нормализовать свои данные, потому что косинус уже предоставляет значения в диапазоне [0:1]. Ваша нормализация Min-Max может привести к потере информации.

person yura    schedule 01.05.2011
comment
+1. Хорошей эвристикой для выбора количества кластеров является sqrt(n), где n — начальное количество элементов. - person Fred Foo; 01.05.2011
comment
@yura, но как реализовать K-среднее с помощью косинусного расстояния? - person Cecilia; 28.07.2019