Я запустил алгоритм кластеризации K-средних для набора файлов последовательности. Однако сгенерированный результат выглядит следующим образом:
0 принадлежит кластеру 1.0: []
0 принадлежит кластеру 1.0: []
0 принадлежит кластеру 1.0: []
0 принадлежит кластеру 1.0: []
0 принадлежит кластеру 1.0: []
0 принадлежит кластеру 1.0: []
Используемая мной программа заимствована из NewsKMeansClustering.java, пример которой приведен в главе 9 Mahout-in-Action.
Не могли бы вы сообщить мне, почему я получаю такой результат? Это из-за каких-либо конкретных требований к настройке параметров или чего-то еще?
Основной код кластеризации в этой программе:
CanopyDriver.run(vectorsFolder, canopyCentroids, new EuclideanDistanceMeasure(), 250, 120, false, false);
KMeansDriver.run(conf, vectorsFolder, new Path(canopyCentroids, "clusters-0"),
clusterOutput, new TanimotoDistanceMeasure(), 0.01, 20, true, false);