Что такое зашумленные образцы в алгоритме кластеризации Scikit DBSCAN?

Если я использую Scikit DBSCAN (http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html) на матрице сходства, я получаю обратно ряд ярлыков. Некоторые из этих ярлыков имеют значение -1. В документации они называются шумными образцами.

Что это? Принадлежат ли все они к одному кластеру или каждый принадлежит своему собственному кластеру, поскольку они шумят?

Спасибо


person Auxiliary    schedule 25.07.2017    source источник
comment
Также прочтите статью о DBSCAN!   -  person Has QUIT--Anony-Mousse    schedule 26.07.2017
comment
Вот ссылка на случай, если это понадобится кому-то еще: aaai.org/Papers /KDD/1996/KDD96-037.pdf   -  person Auxiliary    schedule 26.07.2017


Ответы (1)


Это не совсем часть кластера. Это просто точки, которые не принадлежат ни к каким кластерам и могут быть в некоторой степени «проигнорированы».

Помните, что DBSCAN означает «Пространственная кластеризация приложений с шумом на основе плотности». DBSCAN проверяет, имеет ли точка достаточно соседей в указанном диапазоне для классификации точек в кластеры.

Но что происходит с точками, не соответствующими критериям попадания ни в один из основных кластеров? Что делать, если у точки недостаточно соседей в указанном радиусе, чтобы считаться частью кластера? Это точки, которым присвоена метка кластера -1, и они считаются шумом.

И что?

Что ж, если вы анализируете точки данных и вас интересуют только общие кластеры, вы уменьшаете размер данных и устраняете шум. Или, если вы используете кластерный анализ для классификации данных, в некоторых случаях можно отбросить шум как выбросы.

При обнаружении аномалий важны также точки, не попадающие ни в одну категорию, так как они могут представлять проблему или редкое событие.

person victor    schedule 25.07.2017