Обзор часто используемых инструментов и показателей

Вступление

Классификационные модели представляют собой одни из самых полезных и практичных алгоритмов в мире машинного обучения. От прогнозирования того, пойдет ли дождь до определения мошеннической активности по кредитным картам, эти типы моделей используют предоставленные им доступные данные для классификации их прогнозируемых результатов на две или более групп. За прошедшие годы появилось множество стратегий для решения проблем классификации, включая логистическую регрессию, деревья решений, k-ближайших соседей и многие другие.

Учитывая различные доступные стратегии, возникает естественный вопрос: Как можно оценивать и сравнивать модели классификации друг с другом? Хотя фактический процесс построения моделей классификации будет сохранен в другой раз, в этой статье вы познакомитесь с некоторыми из наиболее распространенных доступных инструментов оценки и показателей.

Матрица замешательства

Прежде чем углубляться в конкретные показатели, которые обычно используются для ответа на поставленный выше вопрос, мы должны сначала рассмотреть основы. Мы будем рассматривать модели бинарной классификации только для того, чтобы упростить задачу, но знаем, что следующие концепции легко распространяются и на многомерные данные. Матрица путаницы, несмотря на свое название, довольно проста. Он показывает нам, как прогнозы модели соотносятся с истинными и правильными значениями, также известными как базовая истина. Давайте посмотрим на пример:

Из этого можно сделать четыре ключевых вывода, по одному для каждого квадранта:

  1. Истинно отрицательные (TN) - это количество прогнозов, в которых прогнозируемая метка была равна 0, а метка наземной истинности также была равна 0. Это можно найти в верхнем левом квадранте. Примечание: отрицательный в этом контексте не обязательно означает отрицательное значение, а скорее означает одну часть двоичного файла, представляющую истину / ложь, включение / выключение, живое / мертвое и т. Д.
  2. Истинно-положительные (TP) аналогичны истинно отрицательным, но для противоположной метки (в данном случае 1). Его можно найти в правом нижнем квадранте.
  3. Ложноотрицательные (ЛО) - это сценарии, в которых модель предсказывала отрицательное значение, тогда как на самом деле истинное значение было положительным. Его можно найти в нижнем левом квадранте.
  4. Ложные срабатывания (FP) - это сценарии, в которых модель предсказывала положительное значение, тогда как на самом деле истинное значение было отрицательным. Его можно найти в правом верхнем квадранте.

Эти четыре части информации можно комбинировать различными способами, чтобы описать общую эффективность модели. Давайте теперь посмотрим на некоторые из этих конкретных показателей.

Метрики

Точность

Точность, наиболее интуитивно понятная из метрик, по сути, является мерой того, сколько прогнозов модели было правильным, то есть соответствовало действительности.

Хотя может показаться, что кроме этой метрики больше ничего не требуется, полагаться исключительно на точность для оценки модели классификации является ошибкой. Рассмотрим следующий сценарий, на который часто ссылаются, чтобы выделить эту проблему: 100 пациентов проходят тестирование на болезнь, которая встречается только у 1% людей. Модель, которая предсказывает, что ни у кого нет заболевания, технически будет иметь 99% точность, но при этом будет совершенно бесполезна для фактического поиска инфицированных пациентов!

Используя значения, найденные в примере матрицы неточностей, точность будет примерно 80,72%.

Точность

Положительные прогнозы модели содержат как истинные положительные, так и ложные положительные результаты. Precision проверяет все предсказанные положительные значения и определяет, какой процент был истинно положительным.

Используя значения, найденные в примере матрицы неточностей, точность будет примерно 76,74%.

Отзывать

Напомним, количество истинных положительных результатов, предсказанных моделью, в процентах от общего количества достоверных положительных результатов.

Подумайте об этой метрике в контексте сценария болезни, упомянутого в разделе «Точность». Хотя точность будет 99%, отзыв будет 0%, поскольку будет ноль истинных положительных результатов и один ложноотрицательный (пациент, который действительно болен, но модель автоматически классифицируется как не имеющая заболевания).

Используя значения, найденные в примере с матрицей неточностей, отзыв будет примерно 74,16%.

Оценка F1

Точность и отзыв имеют обратную зависимость, и их относительная важность полностью зависит от контекста данных, с которыми работаете. В общем, желательно иметь высокие баллы по обоим показателям. Оценка F1 представляет собой среднее гармоническое точности и запоминания и служит мерой баланса между ними.

В результате использования гармонического среднего вместо среднего арифметического оценка F1 может иметь высокое значение только в том случае, если и точность и отзыв имеют высокие значения. Низкое значение любого показателя приведет к значительному искажению оценки F1 в ответе.

Используя значения, найденные в примере матрицы неточностей, оценка F1 будет примерно 75,43%.

Кривые ROC

Тем, кто надеется на более наглядный метод оценки моделей классификации, повезло. Кривая рабочих характеристик приемника (ROC) отображает частоту ложных срабатываний по сравнению с истинно положительными результатами и обеспечивает быстро интерпретируемую визуализацию эффективности модели.

Диагональная пунктирная линия представляет собой случайную модель. Полезные модели, обладающие некоторой предсказательной силой, будут иметь кривые, идущие в верхний левый угол. В этом примере производительность модели логистической регрессии показана синей линией. Кривые ROC нескольких итераций и типов модели могут быть наложены на один и тот же график для быстрого сравнения. Отдельные кривые все еще можно количественно оценить и сравнить, измерив площади под кривыми (AUC) с помощью интегрирования. В приведенном выше примере это значение обозначено как AUC = 0,88. Модель, которая идеально классифицирует все значения, будет иметь AUC 1,00.

Заключение

Понимание этих инструментов и показателей и того, что их отличает друг от друга, является ключом к правильной оценке эффективности моделей классификации. Различные проблемы потребуют настройки моделей для оптимизации различных показателей в соответствии с тем, что имеет наибольшее значение для предметной области. Хотя существуют дополнительные методы оценки, темы, затронутые в этой статье, обеспечивают прочную основу.

Если вам понравилась эта статья, обязательно дайте мне знать, оставив 👏 или комментарий с любым отзывом!

Github: https://github.com/tjkyner
Средний: https://tjkyner.medium.com/
LinkedIn: https://www.linkedin.com/in/tjkyner/