Я рассмотрел этот вопрос, но решение не помогает. Ошибка сбоя задачи кластеризации ELKI Kmeans для высокого размерные данные
Это мой первый раз с ELKI, поэтому, пожалуйста, потерпите меня. У меня есть 45000 точек 2D-данных (после выполнения doc2vec ), которые содержат отрицательные значения и не нормализованы. Набор данных выглядит примерно так:
-4.688612 32.793335
-42.990147 -20.499323
-24.948868 -10.822767
-45.502155 -40.917801
27.979715 -40.012688
1.867812 -9.838544
56.284512 6.756072
Я использую алгоритм K-средних, чтобы получить 2 кластера. Однако я получаю следующую ошибку:
Task failed
de.lmu.ifi.dbs.elki.data.type.NoSupportedDataTypeException: No data type found satisfying: NumberVector,field AND NumberVector,variable
Available types: DBID DoubleVector,variable,mindim=0,maxdim=1 LabelList
at de.lmu.ifi.dbs.elki.database.AbstractDatabase.getRelation(AbstractDatabase.java:126)
at de.lmu.ifi.dbs.elki.algorithm.AbstractAlgorithm.run(AbstractAlgorithm.java:81)
at de.lmu.ifi.dbs.elki.workflow.AlgorithmStep.runAlgorithms(AlgorithmStep.java:105)
at de.lmu.ifi.dbs.elki.KDDTask.run(KDDTask.java:112)
at de.lmu.ifi.dbs.elki.application.KDDCLIApplication.run(KDDCLIApplication.java:61)
at [...]
Итак, мой вопрос: требует ли ELKI, чтобы данные находились в диапазоне [0,1], потому что все примеры, с которыми я сталкивался, имели данные в этом диапазоне.
Или дело в том, что ELKI не принимает отрицательные значения?
Если что-то еще, может ли кто-нибудь помочь мне в этом?
Благодарю вас!