Матрица путаницы — это метод, используемый для подведения итогов производительности алгоритма классификации.

Предположим, мы моделируем набор данных с помощью алгоритма классификации. В результате классификации набора данных, на основе которого была создана модель, производительность модели можно оценить с помощью показателей, предоставленных матрицей путаницы.

Итак, допустим, у нас есть набор данных, мы построили модель с этим набором данных с помощью алгоритма классификации. Мы построили модель, а потом думаем, насколько удачна эта модель? Чтобы понять это, имеет смысл взглянуть на матрицу путаницы.

Потому что матрица путаницы — это таблица, показывающая взаимосвязь между фактическими и прогнозируемыми классами. Таблица состоит из четырех разных ячеек: истинно положительный (TP), истинно отрицательный (TN), ложноположительный (FP) и ложноотрицательный (FN). Каждая из этих ячеек указывает, правильно ли модель предсказывает фактические классы.

Точность:(TP+TN) / (TP+TN+FP+FN) Правильная скорость классификации.
Точность:TP/(TP+FP ) — вероятность успеха положительных предсказаний класса (1). Он показывает, сколько значений, которые мы предсказали как положительные, на самом деле являются положительными.
Вызов: TP/(TP+FN) Возвращает долю правильного предсказания положительного класса (1). Он показывает, сколько транзакций мы должны были спрогнозировать как положительные.
Оценка F1: 2*(Точность*Отзыв)/(Точность+Отзыв) Это гармоническое среднее от точности и отзыва. .

Давайте возьмем данные из реальной проблемы, чтобы мы могли немного больше понять об этом изображении и попытаться его интерпретировать. Например, если у нас есть 165 электронных писем, некоторые из них являются спамом (да), а некоторые — не спамом (нет). Давайте подумаем об этом и интерпретируем эту таблицу.

Количество писем, которые на самом деле являются полным спамом (нет), равно 105. Количество писем, которые на самом деле являются полными не спамом (нет), равно 60.

TN = 50: эти электронные письма фактически предсказали не спам (нет), и наша модель предсказала их как не спам (нет).
TP = 100 эти электронные письма действительно предсказали спам (нет), а наша модель предсказала спам (да).

FN = 5, эти письма на самом деле являются спамом (да), и наша модель предсказала их как не спам (нет).
FP = 10, эти письма на самом деле не спам (нет), и наша модель предсказала спам (да).

Наконец, давайте запишем числовые значения на место.
Точность:(50+100)/(50+5+10+100) = 0,909, поэтому точность нашей модели составляет 90 %. .
Точность: (100)/(10+100) = 0,909
Отзыв: 100/(100+5) = 0,9523
Оценка F1: 2*(0,909*0,9523)/(0,909+0,9523) = 0,93019

Примечание

Ошибка типа I (ложноположительный результат): если мы начнем с примера и интерпретируем его. Наша модель сказала «Спам» («Да») входящей почте, но на самом деле это не «Спам» («Не спам»), мы называем это ошибкой типа 1.

Ошибка типа II (ложноотрицательный результат): наша модель говорит о том, что входящая почта не является спамом (не спам), но фактическая входящая почта является спамом (да). Мы называем эту ошибку ошибкой типа 2. Этот тип ошибки важен. Это может причинить вред. Потому что мы не замечаем мошеннических действий. Это можно лучше понять на примере. Например, невозможность обнаружить злокачественную опухоль у человека. Такое состояние незамеченности может стоить человеку жизни.

Спасибо за чтение. Вы можете поделиться своей идеей или чем-то, что вы хотите добавить. Вы также можете связаться со мной по почте :))