ИИ-ДНЕВНИК

Кривые рабочих характеристик приемника (ROC) и совокупного профиля точности (CAP) — сравнение

Дополнительные методы оценки эффективности классификации

Несмотря на все достижения искусственного интеллекта в современных технологиях и более сложные алгоритмы, классификация по-прежнему остается самой популярной и актуальной проблемой контролируемого машинного обучения, с которой мы сталкиваемся. Это наиболее прямой подход к проблеме, который находит множество применений в сфере финансов, здравоохранения, банковского дела и многих других. Следовательно, чрезвычайно важно оценить обученные модели, обеспечивающие высокую производительность в новых случаях, с которыми ранее не встречались. Как мы, возможно, знаем, матрицу путаницы можно использовать для оценки модели классификатора, обученной с помощью соответствующих показателей. Но на самом деле оказывается, что точность не является подходящим показателем для этой цели, и существуют различные другие методы, которые можно использовать для определения производительности классификатора.

Итак, в этой статье я хотел бы начать с объяснения парадокса точности, который представляет собой ситуацию, возникающую при оценке моделей классификации (особенно при использовании точности в качестве метрики). после чего я бы объяснил альтернативные подходы к оценке производительности обученной модели классификатора, а именно кривую профиля совокупной точности (CAP) и кривую характеристики приемника-оператора (ROC), и объяснил основные различия между ними. Итак, начнем!

Проблема с точностью как показателем классификации

Чтобы понять это, давайте в качестве примера возьмем простую задачу бинарной классификации. Рассмотрим сценарий, в котором мы обучили модели-классификаторы, которые предсказывают, является ли человек положительным или отрицательным по заболеванию.

Напомним, что точность по матрице путаницы можно рассчитать с помощью следующего выражения:

Допустим, матрица путаницы, полученная после тестирования одной из моделей (скажем, Модели-1), выглядит следующим образом:

Для этой модели, если использовать выражение для получения точности, получим (960 + 15)/1000 = 97,5%.

Теперь предположим, что мы обучили другую модель (назовем ее Модель-2), которая прогнозирует истинность всех наблюдений независимо от значений признаков. Следовательно, матрица путаницы модели может выглядеть следующим образом:

Как мы видим, эта модель предсказывает только положительные результаты (TP и FP) для всех наблюдений в тестовом наборе, но точность составляет 980/1000 = 98%, что выше, чем у предыдущей модели!

Мы можем наблюдать, что если мы перестанем прогнозировать один из двух классов, точность увеличится на 0,5%, что нежелательно и практично в реальных ситуациях. Этот сценарий называется парадоксом точности, и это одна из основных причин, почему мы никогда не должны основывать свои выводы о производительности модели только на использовании точности в качестве показателя. Именно здесь в игру вступают точность, полнота и F1-Score, которые могут дать лучшее представление о производительности классификатора.

Выяснив, что такое парадокс точности, я хотел бы теперь объяснить кривые ROC и CAP и выделить основные различия между ними.

Кривая ROC (рабочая характеристика приемника)

Прежде чем мы продолжим, я хотел бы немного объяснить уровень истинно положительных результатов (TPR), также известный как отзыв, и уровень ложных срабатываний (FPR), который можно получить из матрицы путаницы. .

TPR и FPR можно рассчитать следующим образом:

Проще говоря, кривая ROC суммирует все матрицы путаницы, полученные для модели классификации при разных порогах. Площадь под кривой (AUC) — это показатель, который обозначает производительность модели классификатора по этой кривой ROC.

Пример кривой ROC выглядит следующим образом:

Как видно выше, если кривая нашей модели находится выше случайного классификатора, наша модель является очень хорошей моделью, и хуже, если она ниже него, т. е. если площадь под кривой ROC выше, модель лучше, в противном случае - плохой. . ROC можно использовать вместо анализа нескольких матриц путаницы, полученных для одной и той же модели классификатора, и, следовательно, это оптимальный подход для оценки эффективности модели.

Кривая CAP (кумулятивный профиль точности)

Проще говоря, кривая CAP используется для анализа того, какая часть наблюдений одного класса может быть охвачена по отношению к общему размеру наблюдений.

  • Если модель способна охватить большую часть или все наблюдения определенного класса при меньшем размере выборки, то она считается идеальной моделью.
  • Модель оценивается путем сохранения общей площади, покрытой идеальной моделью, в качестве эталона. Если выбранная/текущая модель ближе к идеальной, то модель классификатора считается лучшей.

Пример кривой CAP показан ниже:

В этом случае уровень точности используется в качестве показателя производительности. Коэффициент точности (AR) можно рассчитать по значениям площади рассматриваемой модели (aR) и площади идеальной модели (aP) следующим образом:

Однако в практических ситуациях определить значения aR и aP крайне сложно. Следовательно, мы используем другой подход для определения производительности модели, который заключается в следующем:

  • Мы берем 50% размера наблюдений и строим вертикальную линию.
  • Находим пересечение линии с кривой рассматриваемой модели и находим процент классов, охваченных этими 50% наблюдениями.
  • Мы принимаем это значение за X и оцениваем нашу модель.

Вышеупомянутые моменты суммированы на рисунке:

В общем, значения X можно интерпретировать следующим образом (но интерпретация может различаться):

  • X ‹ 60%, модель считается очень плохой
  • 60% ‹ X ‹ 70%, модель все еще плохая
  • 70% ‹ X ‹ 80%, модель хорошая
  • 80% ‹ X ‹ 90%, модель очень хорошая
  • X › 90%, модель почти идеальна

Однако в последних двух случаях необходимо убедиться, что модель не переоснащается.

Из приведенных выше концепций можно понять, что кривая ROC отображает зависимость TPR от FPR, тогда как кривая CAP отображает процент охваченного одного класса наблюдений по отношению к размеру выборки наблюдений, хотя обе эти кривые имеют площади под ними. связаны и очень похожи. В реальных приложениях кривая ROC чаще используется для оценки производительности модели, но CAP также можно использовать для подтверждения лучшей производительности построенной модели классификации. Итак, я надеюсь, что дал вам самое общее представление об этих двух кривых. Если у вас есть какие-либо вопросы/комментарии/предложения, опубликуйте их, чтобы мы могли обсудить, и это также поможет мне создавать лучший контент в будущем. Ваше здоровье!

Рекомендации