Прежде всего, мы все, должно быть, почувствовали, что нас неправильно оценивают в школе и колледжах, потому что все учащиеся оцениваются по оценкам. Все ученики, хорошо умеющие рисовать, плавать и запоминать заметки, получали одинаковую оценку. Если так же оценивать нашу модель, то она на 100% бесполезна.

Например, как ученики, хорошо владеющие плаванием, должны соревноваться и оценивать свои выступления с другими пловцами, нам нужно выбрать правильный показатель для оценки работы модели. У нас есть ряд показателей оценки для обоих типов моделей: Классификация и Регрессия. В этом случае мы также можем использовать лучшую метрику в зависимости от контекста проблемы, которую мы пытаемся решить или решить.

Чаще всего используются следующие показатели.

Классификация.

1. Точность классификации

2. Матрица неточностей

3. Оценка F1

4. График Колмогорова Смирнова.

5. AUC-ROC

6. Потеря журнала

7. Коэффициент Джини.

8. Коэффициент корреляции Мэтьюза.

9. Согласие - несогласованное соотношение.

Регресс.

1. MSE

2. RMSE

3. MAE

4. RMSLE

5. R в квадрате

6. Скорректированный R в квадрате

Прежде чем переходить к метрикам, давайте поймем, что функция потерь отличается от метрик оценки. Функция потерь - это то, что мы будем использовать во время обучения модели, а метрика оценки используется для определения точности и производительности модели после того, как мы построим нашу модель.

Точность классификации

Очень просто рассчитать точность любой модели, просто разделив правильный прогноз на общее количество выборок.

Точность = Всего верных прогнозов / Всего выборок.

Матрица неточностей

Матрица неточностей - это матричное представление прогноза нашей модели. Мы не можем использовать числа напрямую для определения точности модели, но число поможет получить много полезной информации о нашей модели. Он создаст матрицу N * N в зависимости от количества классов в зависимой переменной.

Как показано на диаграмме выше, у нас может быть четыре выхода для прогноза, предсказанного нашей моделью.

Истинно положительный - Фактический положительный и прогнозируемый положительный

Истинно отрицательное - Фактическое отрицательное и прогнозируемое отрицательное

Ложноположительный - Фактический отрицательный и прогнозируемый положительный (ошибка типа 1)

Ложноотрицательный - Фактический положительный и прогнозируемый отрицательный (ошибка типа 2)

Давайте поговорим о некоторых интересных вещах, которые мы можем извлечь из этого числа и использовать его для совершенствования нашей модели в зависимости от природы проблемы и ее контекста.

Точность

Его можно получить из TP / (TP + FP). Когда нам нужно позаботиться о значении точности, например, если мы работаем над классификацией спама и радиолюбителей. Мы не должны сводить к минимуму ложноположительные результаты или сводить их к минимуму. Потому что, если какое-либо важное письмо классифицируется как спам и перемещается в папку для спама, это может вызвать катастрофу в зависимости от важности этого письма.

Напомнить

С другой стороны, отзыв может быть получен из TP / (TP + FN). Когда мы хотим придать значение ложноотрицательному, когда мы пытаемся свести его к минимуму, мы можем использовать значение отзыва. В случае обнаружения рака, если мы объявляем ложноположительный результат, это означает, что пациент, у которого нет рака, и он был отмечен как больной раком, он определит, когда он пойдет на дальнейшее лечение. Но если мы сделали ложноотрицательный результат, если мы отметили пациента, у которого рак, как пациента, не страдающего раком, он не предпримет никаких действий, и рак перейдет в тяжелую стадию. Это еще называют чувствительностью.

F1-Score

Мы можем использовать оценку F1, если вы хотите сбалансировать точность и отзывчивость. Это гармоничное средство точности и запоминания.

Если мы хотим придать немного большее значение точности или отзыву, мы можем добавить к нему коэффициент Beta.

F1-Score варьируется от нуля (плохо) до единицы (хорошо).

График роста и роста

Это будет удобная метрика, если вы захотите найти в группе людей, которые, вероятно, ответят на ваше электронное письмо, которые, вероятно, откажутся от участия или будут присутствовать на конференции из ваших приглашенных.

Шаги по вычислению значений усиления.

1. Рассчитайте вероятность для каждого наблюдения.

2. Расположите вероятность в порядке убывания.

3. Постройте децили с каждой группой, имеющей почти 10% наблюдений.

4. Рассчитайте процент ответов для каждого дециля.

Фиктивная модель предсказывает, что 10% почтовых отправителей ответят на нашу электронную почту из отправленных 1 лакх электронных писем. Итак, мы разделились на десять децилей, и у каждого по 10000 писем. Таким образом, скорость отклика фиктивной модели составляет 1000 на дециль. Когда мы запускаем нашу модель, мы находим количество респондентов в каждом дециле и указываем значение в следующем столбце. Затем значения усиления и подъемной силы выводятся из числа респондентов модели до и после.

На приведенной ниже диаграмме подъемной силы, согласно нашим наблюдениям, мы получим 3% в первом дециле, а не 4,5.

Подойдет любая модель с подъемом от 3 до 7 децилей.

График Колмогорова Смирнова

K-S измеряет степень разделения между положительным и отрицательным распределением. Диапазон значений от 0 до 100 - чем выше значение, тем выше точность модели.

AUC-ROC

Это один из самых популярных показателей, используемых в отрасли. ROC - это кривая вероятности, а AUC - степень или мера разделимости. Он говорит о том, насколько модель способна различать классы.

Кривая ROC - это график между чувствительностью и (1-специфичностью). (1-специфичность) также известна как частота ложных срабатываний, а чувствительность также известна как частота истинных положительных результатов.

Диагональная линия взята из фиктивной модели, она получит 50% точности в сбалансированном наборе данных, предсказав, что все значения будут либо 0, либо 1. Насколько далеко наш AUC от этой диагональной линии, насколько наша модель лучше от фиктивной модели. В идеальной модели AUC должна быть равна 1, значит, горизонтальная линия на 1 по оси Y.

Давайте узнаем, что кривая AUC объяснит способность модели разделять положительное и отрицательное, и поймет это с помощью приведенной ниже диаграммы.

Потеря журнала

AUC-ROC будет учитывать только порядок прогнозируемых вероятностей, он не будет учитывать способность модели прогнозировать результаты с более высокой вероятностью как положительное значение. В этом случае мы должны использовать потерю журнала, и это отрицательное среднее значение журнала правильно спрогнозированных вероятностей каждого экземпляра.

Правильный прогноз с высокой вероятностью будет иметь меньшие потери журнала, а правильный прогноз с меньшей вероятностью будет иметь средние потери журнала, а неправильный прогноз с высокой вероятностью будет иметь большие потери журнала.

В случае мультиклассовой классификации мы берем сумму значений логарифмических потерь для каждого предсказания класса в наблюдении.

Коэффициент Джини

Иногда используется в задачах классификации. Коэффициент Джини будет напрямую выведен из значений AUC ROC. Это соотношение между кривой ROC и диагональной линией области над треугольником.

GINI = 2 * AUC-1

Джини ›60% считается хорошей моделью.

Коэффициент корреляции Мэтьюза

Формула для получения MCC выглядит следующим образом.

Он имеет преимущество по сравнению с оценкой F1, и это объясняется на диаграмме ниже. Кроме того, у него есть недостатки, он не может хорошо работать с мультиклассовыми классификациями.

Согласованное - Несогласованное соотношение

Это один из важных показателей классификации. Давайте разберемся с этим на примере. Допустим, у нас есть три клиента, которые, вероятно, оплатят счет по кредитной карте в определенный день. Модель предсказала их шансы заплатить на свидании с процентным соотношением, указанным ниже.

A — 90%

B — 50%

C — 20%

В день платежа A и C оплатили свой счет, а B не оплатил его. Итак, теперь мы можем разделить клиентов на три пары AB, BC и CA и рассматривать только ту пару, в которой есть хотя бы один не отвечающий.

Согласованный - ›AB - Количество респондентов: количество не ответивших

Дискордантный - ›BA - Количество не ответивших: Количество респондентов.

В нашем случае коэффициент согласованности составляет 50%. Модель с коэффициентом согласования более 60% считается хорошей моделью.