Предположим, у меня есть кластеризованная гистограмма, и я хочу найти выбросы в каждом кластере... это легче объяснить на примере, так что вот он:
Здесь у нас есть количество кодов ошибок (ось X: коды, ось Y: количество), а кластеры — это, скажем, отдельные машины, на которых эти ошибки были зарегистрированы. Вы можете видеть, что 1001
регистрируется на всех этих машинах, а 897
не так много. Я хочу найти, где определенные машины являются выбросами (высокими) по сравнению с остальными машинами для каждого кластера кода ошибки.
Это шаблон, который я мог бы легко распознать своим глазом ... но тот факт, что так много ошибок 1001
записано, нанесено на график против всех других кодов ошибок с линейной осью Y, означает, что различия в 897
или 176
слишком малы, чтобы пятно.
Итак: есть ли способ «нормализовать» каждый кластер, чтобы для кластеров с небольшими подсчетами их подсчеты были завышены/расширены, чтобы занимать больше оси Y?