Кластеризация по значениям сходства косинусов

Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения между 0-1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе значений косинусного сходства, чтобы найти из похожих URL-адресов. Какой алгоритм кластеризации будет наиболее подходящим?. Пожалуйста, предложите мне метод динамической кластеризации, потому что он будет полезен, поскольку я могу увеличить количество URL-адресов по запросу, а также это будет более естественным. Пожалуйста, поправьте меня, если вы чувствуете, что я' м продвигаюсь вперед неправильно. Спасибо в ожидании.

Sasikumar Rengasamy 30.04.2011 источник

Ответы (1)

arrow_upward
3
arrow_downward

Кластеризацию K-средних можно использовать для онлайн-обучения, нужно только заранее выбрать количество кластеров. Кроме того, я думаю, что вы не должны нормализовать свои данные, потому что косинус уже предоставляет значения в диапазоне [0:1]. Ваша нормализация Min-Max может привести к потере информации.

yura 01.05.2011

comment

+1. Хорошей эвристикой для выбора количества кластеров является sqrt(n), где n — начальное количество элементов. - Fred Foo; 01.05.2011

comment

@yura, но как реализовать K-среднее с помощью косинусного расстояния? - Cecilia; 28.07.2019

Кластеризация по значениям сходства косинусов

Ответы (1)

Похожие вопросы