как повторно кластеризовать новый экземпляр в центроидной базовой кластеризации?

Я применил алгоритмы кластеризации, такие как k-mean, k-medoid и DBSCAN, к набору данных моих пациентов. Для каждого алгоритма RapidMiner генерирует кластерную модель (центроидную таблицу, графики и т. д.) и кластеризованный набор (показывает, какие примеры являются частью какого кластера). Теперь я хочу каким-то образом, когда приходит новый пациент, я хочу назначить ему кластер на основе предыдущей обученной модели. Я смущен способом сделать это.. это что-то вроде этого, я могу ошибаться

для каждого значения атрибута нового пациента - это значение атрибута из таблицы центроидов, суммирующее все различия атрибутов пациента и взяв среднее значение.

затем назначьте ему кластер, среднее значение которого минимально по отношению к этому пациенту.

если это правильный путь, то как я буду перегруппировывать, то есть, когда приходит новый пациент, наш алгоритм назначает ему кластер, это значит. центроид перемещается, а затем мне приходится перегруппировывать с каждой вставкой записи. как справиться с этим в моем сценарии?


person Mona    schedule 08.07.2013    source источник
comment
Этот вопрос относится к stats.stackexchange.com   -  person Has QUIT--Anony-Mousse    schedule 08.07.2013


Ответы (1)


Ознакомьтесь с алгоритмами онлайн-кластеризации, если вы хотите применить их к потокам.

Существуют такие вещи, как онлайн-варианты k-средних.

Обычно вы действительно хотите избежать повторной кластеризации всех существующих примеров, потому что это не будет работать с бесконечными потоками данных и ограниченной памятью.

Обычно рекомендуется не пытаться получить точно такой же результат, как если бы вы запускали классический алгоритм кластеризации, а научиться жить с некоторыми ошибками. Ведь все эти алгоритмы и так уже просто эвристика. Пока ваша аппроксимация хороша, нет ничего плохого в аппроксимации эвристики.

person Has QUIT--Anony-Mousse    schedule 08.07.2013