Скажем, у нас есть набор данных большого размера, который мы уменьшили до меньшего размера с помощью PCA. Будет ли разумно/точно использовать алгоритм кластеризации для указанных данных? Предполагая, что мы не знаем, сколько кластеров ожидать.
Использование PCA в наборе данных Iris (с данными в CSV, упорядоченными таким образом, что перечислены все из первого класса, затем второго, затем третьего) дает следующий график: -
Видно, что три класса в наборе данных Iris были сохранены. Однако, когда порядок выборок рандомизирован, получается следующий график:
Выше неясно, сколько кластеров/классов содержится в наборе данных. В этом случае (более реальный случай), как определить количество классов, будет ли эффективным алгоритм кластеризации, такой как K-Means?
Будут ли неточности из-за отказа от основных компонентов более низкого порядка?
РЕДАКТИРОВАТЬ: - Чтобы было ясно, я спрашиваю, можно ли кластеризовать набор данных после запуска PCA, и если да, то каким будет наиболее точный метод.