Я извлек слова из набора URL-адресов и вычислил косинусное сходство между содержимым каждого URL-адреса. А также я нормализовал значения между 0-1 (используя Min-Max). Теперь мне нужно сгруппировать URL-адреса на основе значений косинусного сходства, чтобы найти из похожих URL-адресов. Какой алгоритм кластеризации будет наиболее подходящим?. Пожалуйста, предложите мне метод динамической кластеризации, потому что он будет полезен, поскольку я могу увеличить количество URL-адресов по запросу, а также это будет более естественным. Пожалуйста, поправьте меня, если вы чувствуете, что я' м продвигаюсь вперед неправильно. Спасибо в ожидании.
Кластеризация по значениям сходства косинусов
Ответы (1)
Кластеризацию K-средних можно использовать для онлайн-обучения, нужно только заранее выбрать количество кластеров. Кроме того, я думаю, что вы не должны нормализовать свои данные, потому что косинус уже предоставляет значения в диапазоне [0:1]. Ваша нормализация Min-Max может привести к потере информации.
person
yura
schedule
01.05.2011
+1. Хорошей эвристикой для выбора количества кластеров является sqrt(n), где n — начальное количество элементов.
- person Fred Foo; 01.05.2011
@yura, но как реализовать K-среднее с помощью косинусного расстояния?
- person Cecilia; 28.07.2019