Всесторонний обзор метрик оценки регрессии

Обширный справочник по часто используемым метрикам оценки регрессии и их практическому применению в различных сценариях.

Как специалист по данным, оценка производительности моделей машинного обучения является важным аспектом вашей работы. Чтобы сделать это эффективно, в вашем распоряжении имеется широкий набор статистических показателей, каждый из которых имеет свои уникальные сильные и слабые стороны. Развив четкое представление об этих показателях, вы не только будете лучше подготовлены к выбору наилучшего из них для оптимизации вашей модели, но и сможете объяснить свой выбор и его последствия заинтересованным сторонам в бизнесе.

В этой статье я сосредоточусь на метриках, которые используются для оценки проблем регрессии, которые предсказывают числовые значения, такие как цена дома или прогноз продаж компании на следующий месяц. Поскольку регрессионный анализ считается основой науки о данных, важно понимать его нюансы.

Быстрая подготовка к остаткам

Остатки являются строительными блоками большинства метрик. Проще говоря, остаток — это разница между фактическим значением и прогнозируемым.

residual = actual - prediction

На следующем рисунке представлена взаимосвязь между целевой переменной (y) и отдельной функцией (x). Синие точки обозначают наблюдения. Красная линия соответствует модели машинного обучения, в данном случае — линейной регрессии. Оранжевые линии представляют различия между наблюдаемыми значениями и прогнозами для этих наблюдений. Таким образом, остатки могут быть рассчитаны для каждого наблюдения в наборе данных, будь то обучающий или тестовый набор.

Метрики оценки регрессии

В этом разделе обсуждаются некоторые из наиболее популярных метрик оценки регрессии, которые могут помочь вам оценить эффективность вашей модели.

Предвзятость

Простейшей мерой ошибки будет сумма остатков, иногда называемая смещением. Поскольку остатки могут быть как положительными (прогноз меньше фактического значения), так и отрицательными (прогноз больше фактического значения), смещение обычно говорит нам, были ли наши прогнозы выше или ниже фактических значений.

Однако, поскольку остатки противоположных знаков компенсируют друг друга, мы можем получить модель, которая генерирует прогнозы с очень низким смещением, хотя и не является точной.

Кроме того, мы можем рассчитать среднюю невязку или среднюю ошибку смещения (MBE).

R-квадрат

Следующая метрика, вероятно, первая, с которой вы сталкиваетесь при изучении регрессионных моделей, особенно если это происходит на занятиях по статистике или эконометрике. R-квадрат(R²), также известный как коэффициент детерминации, представляет долю дисперсии, объясняемую моделью. Точнее, R² соответствует степени, в которой дисперсия зависимой переменной (целевой) может быть объяснена независимыми переменными (признаками).

Для расчета R² используется следующая формула.

Где:

RSS — это остаточная сумма квадратов, которая представляет собой сумму квадратов невязок. Это значение фиксирует ошибку предсказания модели.
TSS - это общая сумма квадратов. Чтобы вычислить это значение, сначала мы принимаем простую модель, в которой прогноз для каждого наблюдения является средним значением всех наблюдаемых фактических значений. TSS пропорциональна дисперсии зависимой переменной, так как TSS/N — это фактическая дисперсия y, где N — количество наблюдений. Вот почему мы можем думать о TSS как о дисперсии, которую не может объяснить простая модель среднего.

По сути, мы сравниваем подгонку модели (обозначенной красной линией на рисунке 2) с подгонкой модели с простым средним значением (обозначенной зеленой линией).

Зная, что обозначают компоненты R², мы можем видеть, что RSS/TSS представляет долю общей дисперсии цели, которую наша модель не могла объяснить.

Есть несколько дополнительных моментов, о которых следует помнить при работе с R².

Прежде всего, R² — это относительная метрика, то есть ее можно использовать для сравнения с другими моделями, обученными на том же наборе данных. Более высокое значение указывает на лучшее соответствие.

R² также можно использовать для получения приблизительной оценки того, как модель работает в целом. Однако мы должны быть осторожны при использовании R² для таких оценок:

Во-первых, разные области (социальные науки, биология, финансы и т. д.) считают разные значения R² хорошими или плохими.
Во-вторых, R² не дает никакой меры смещения, поэтому у нас может быть переобученная (сильно смещенная) модель с высоким значением R². Таким образом, мы должны также смотреть на другие показатели, чтобы получить хорошее представление о производительности модели.

Потенциальный недостаток R² заключается в том, что он предполагает, что каждая функция помогает объяснить изменение цели, хотя это не всегда так. По этой причине, если мы продолжим добавлять признаки в линейную модель, оцененную с помощью обычного метода наименьших квадратов (OLS), значение R² может увеличиться или остаться неизменным, но никогда не уменьшится.

Почему? По своему замыслу оценка OLS сводит к минимуму RSS. Предположим, что модель с дополнительной функцией не улучшает значение R² первой модели. В этом случае метод оценки OLS устанавливает коэффициенты этой функции равными нулю (или некоторому статистически незначимому значению). В свою очередь, это фактически возвращает нас к исходной модели. В худшем случае мы можем получить оценку нашей отправной точки.

Решением проблемы, упомянутой в предыдущем пункте, является скорректированный R², который дополнительно штрафует за добавление функций, которые бесполезны для прогнозирования цели. Значение скорректированного R² уменьшается, если увеличение R², вызванное добавлением новых функций, недостаточно значительно.

В качестве последнего пункта мы оставили часто неправильно понимаемый вопрос о диапазоне значений R². Если линейная модель подобрана с использованием OLS, диапазон R² составляет от 0 до 1. Это связано с тем, что при использовании оценки OLS (которая минимизирует RSS) общее свойство состоит в том, что RSS ≤ TSS. В худшем случае оценка МНК приведет к получению средней модели. В этом случае RSS будет равен TSS, и в результате минимальное значение R² будет равно 0. С другой стороны, в лучшем случае RSS = 0 и R² = 1.

В случае нелинейных моделей R² может быть отрицательным. Поскольку процедура подбора таких моделей не основана на итеративной минимизации RSS, подобранная модель может иметь RSS больше, чем TSS. Другими словами, предсказания модели хуже соответствуют данным, чем модель простого среднего. Для получения дополнительной информации см. Когда R в квадрате отрицательно?

Бонус: с помощью R² мы можем оценить, насколько лучше наша модель соответствует данным по сравнению с простой моделью среднего. Мы можем думать о положительном значении R² с точки зрения улучшения производительности базовой модели — что-то вроде оценки навыков. Например, R², равный 40 %, указывает на то, что наша модель уменьшила среднеквадратичную ошибку на 40 % по сравнению с базовой моделью среднего значения.

Среднеквадратическая ошибка

Среднеквадратическая ошибка (MSE) — один из самых популярных показателей оценки. Как показано в следующей формуле, MSE тесно связана с остаточной суммой квадратов. Разница в том, что теперь нас интересует средняя ошибка, а не общая ошибка.

Вот некоторые моменты, которые следует учитывать при работе с MSE:

MSE использует среднее значение (вместо суммы), чтобы метрика не зависела от размера набора данных.
Поскольку остатки возводятся в квадрат, MSE налагает значительно большие штрафы на большие ошибки. Некоторые из них могут быть выбросами, поэтому MSE не устойчив к их присутствию.
Поскольку метрика выражается с использованием квадратов, сумм и констант (1/N), она дифференцируема. Это полезно для алгоритмов оптимизации.
При оптимизации MSE (устанавливая ее производную на 0) модель стремится к тому, чтобы общая сумма прогнозов была равна общей сумме фактических значений. То есть это приводит к предсказаниям, которые в среднем верны. Поэтому они беспристрастны.
MSE не измеряется в исходных единицах, что может затруднить интерпретацию.
MSE является примером метрики, зависящей от масштаба, то есть ошибка выражается в единицах базовых данных (даже несмотря на то, что на самом деле для выражения в той же шкале требуется квадратный корень). Следовательно, такие показатели нельзя использовать для сравнения производительности разных наборов данных.

Среднеквадратическая ошибка

Среднеквадратическая ошибка (RMSE) тесно связана с MSE, поскольку представляет собой просто квадратный корень из последнего. Взяв квадрат, мы возвращаем метрику к шкале целевой переменной, поэтому ее легче интерпретировать и понимать. Однако один факт, который часто упускается из виду, заключается в том, что, хотя RMSE находится в том же масштабе, что и цель, RMSE, равное 10, на самом деле не означает, что мы отклоняемся в среднем на 10 единиц.

Помимо масштаба, RMSE имеет те же свойства, что и MSE. На самом деле, оптимизация для RMSE при обучении модели приведет к той же модели, что и при оптимизации для MSE.

Средняя абсолютная ошибка

Формула для расчета средней абсолютной ошибки (MAE) аналогична формуле MSE. Нам просто нужно заменить квадрат абсолютным значением.

Характеристики МАЭ включают следующее:

Из-за отсутствия возведения в квадрат метрика выражается в том же масштабе, что и целевая переменная, что упрощает ее интерпретацию.
Все ошибки обрабатываются одинаково, поэтому метрика устойчива к выбросам.
Абсолютное значение не учитывает направление ошибок, поэтому занижение прогноза = завышение прогноза.
Подобно MSE и RMSE, MAE также зависит от масштаба, поэтому мы не можем сравнивать его между разными наборами данных.
При оптимизации для MAE прогноз должен быть во столько же раз выше фактического значения, сколько должно быть ниже. Это означает, что мы эффективно ищем медиану; то есть значение, которое разбивает набор данных на две равные части.
Поскольку формула содержит абсолютные значения, MAE нелегко дифференцируется.

Средняя абсолютная ошибка в процентах

Средняя абсолютная ошибка в процентах (MAPE) — один из самых популярных показателей в бизнесе. Это потому, что он выражается в процентах, что значительно упрощает его понимание и интерпретацию.

Чтобы сделать метрику еще более удобной для чтения, мы можем умножить ее на 100%, чтобы выразить число в процентах.

Вопросы для рассмотрения:

MAPE выражается в процентах, что делает его показателем, не зависящим от масштаба. Его можно использовать для сравнения прогнозов в разных масштабах.
MAPE может превышать 100%.
MAPE не определено, когда фактические значения равны нулю (деление на ноль). Кроме того, он может принимать экстремальные значения, когда фактические значения очень близки к нулю.
MAPE является асимметричным и налагает более серьезные штрафы на отрицательные ошибки (когда прогнозы выше, чем фактические), чем на положительные. Это вызвано тем, что процентная ошибка не может превышать 100% для слишком низких прогнозов. Между тем, нет верхнего предела для слишком высоких прогнозов. В результате оптимизация для MAPE будет отдавать предпочтение моделям с заниженным, а не с завышенным прогнозом.
Хайндман (2021) развивает часто забываемое предположение MAPE, то есть единица измерения переменной имеет значимое нулевое значение. Таким образом, прогнозирование спроса и использование MAPE не вызывают никаких опасений. Однако с этой проблемой мы столкнемся при прогнозировании температуры, выраженной по шкале Цельсия (и не только этой). Это потому, что температура имеет произвольную нулевую точку и говорить о процентах в их контексте не имеет смысла.
MAPE не везде дифференцируема, что может привести к проблемам при использовании его в качестве критерия оптимизации.
Поскольку MAPE является относительным показателем, одна и та же ошибка может привести к разным потерям в зависимости от фактического значения. Например, для прогнозируемого значения 60 и фактического значения 100 MAPE составит 40 %. Для прогнозируемого значения 60 и фактического значения 20 номинальная ошибка по-прежнему составляет 40, но в относительном масштабе она составляет 300%.
К сожалению, MAPE не дает хорошего способа отличить важное от второстепенного. Предположим, мы работаем над прогнозированием спроса и в течение нескольких месяцев получаем MAPE в размере 10% для двух разных продуктов. Тогда получается, что первый продукт продается в среднем 1 миллион единиц в месяц, а другой только 100. Оба имеют одинаковые 10% MAPE. При агрегировании по всем продуктам эти два будут вносить одинаковый вклад, что может быть далеко не желательным. В таких случаях имеет смысл рассмотреть взвешенный MAPE (wMAPE).

Симметричная средняя абсолютная ошибка в процентах

Обсуждая MAPE, я упомянул, что одним из его потенциальных недостатков является его асимметрия (не ограничивающая предсказания, которые выше фактических). Симметричная средняя абсолютная ошибка в процентах (sMAPE) — это связанная метрика, которая пытается решить эту проблему.

Что следует учитывать при использовании sMAPE:

Он выражается в виде ограниченного процента, то есть имеет нижнюю (0%) и верхнюю (200%) границы.
Метрика все еще нестабильна, когда и истинное значение, и прогноз очень близки к нулю. Когда это произойдет, мы будем иметь дело с делением на число, очень близкое к нулю.
Диапазон от 0% до 200% не интуитивно интерпретируется. Деление на два в знаменателе часто опускается.
Всякий раз, когда фактическое значение или прогнозное значение равно 0, sMAPE автоматически достигает верхнего граничного значения.
sMAPE включает в себя те же предположения, что и MAPE, в отношении значимого нулевого значения.
Фиксируя асимметрию безграничности, sMAPE вводит еще один вид тонкой асимметрии, вызванной знаменателем формулы. Представьте два случая. В первом мы имеем A = 100 и F = 120. sMAPE составляет 18,2%. Теперь аналогичный случай, в котором у нас есть A = 100 и F = 80, sMAPE составляет 22,2%. Таким образом, sMAPE имеет тенденцию более строго наказывать за занижение прогноза, чем за завышение.
sMAPE может быть одной из самых спорных метрик ошибок, особенно в прогнозировании временных рядов. Это связано с тем, что в литературе существует как минимум несколько версий этой метрики, каждая из которых имеет небольшие отличия, влияющие на ее свойства. Наконец, название метрики предполагает, что асимметрии нет, но это не так.

Другие показатели оценки регрессии, которые следует учитывать

Я не стал описывать все возможные метрики оценки регрессии, так как их десятки (если не сотни). Вот еще несколько показателей, которые следует учитывать при оценке моделей:

Среднеквадратичная логарифмическая ошибка (MSLE) является двоюродной сестрой MSE, с тем отличием, что мы берем логарифм фактических значений и прогнозов перед вычислением квадрата ошибки. Получение журналов двух элементов при вычитании приводит к измерению отношения или относительной разницы между фактическим значением и прогнозом без учета масштаба данных. Вот почему MSLE снижает влияние выбросов на окончательный результат. MSLE также налагает более суровые наказания за занижение прогноза.
Среднеквадратическая логарифмическая ошибка (RMSLE) — это показатель, который берет квадратный корень из MSLE. Он имеет те же свойства, что и MSLE.
Информационный критерий Акаике (AIC) и Байесовский информационный критерий (BIC) являются примерами информационных критериев. Они используются, чтобы найти баланс между хорошей посадкой и сложностью модели. Если мы начнем с простой модели с несколькими параметрами и добавим больше, наша модель, вероятно, будет лучше соответствовать обучающим данным. Тем не менее, он также будет усложняться и рисковать переоснащением. С другой стороны, если мы начнем со многих параметров и систематически удалим некоторые из них, модель станет проще. В то же время мы снижаем риск переоснащения за счет потенциальной потери производительности (качество соответствия). Разница между AIC и BIC заключается в весе штрафа за сложность. Имейте в виду, что недопустимо сравнивать информационные критерии для разных наборов данных или даже подвыборок одного и того же набора данных, но с разным количеством наблюдений.

Когда использовать каждую оценочную метрику

Как и в случае с большинством проблем науки о данных, не существует единственной наилучшей метрики для оценки производительности регрессионной модели. Метрика, выбранная для варианта использования, будет зависеть от данных, используемых для обучения модели, бизнес-кейса, которому мы пытаемся помочь, и так далее. По этой причине мы часто можем использовать одну метрику для обучения модели (метрику, для которой оптимизировано), но при составлении отчетов заинтересованным сторонам специалисты по данным часто представляют набор метрик.

При выборе показателей рассмотрите несколько из следующих вопросов:

Ожидаете ли вы частых выбросов в наборе данных? Если да, то как вы хотите их учитывать?
Предпочитает ли бизнес завышение или занижение прогнозов?
Вам нужна метрика, зависящая или независимая от масштаба?

Я считаю, что полезно изучить метрики некоторых игрушечных корпусов, чтобы полностью понять их нюансы. Хотя большинство метрик доступны в модуле metrics модуля scikit-learn, для этой конкретной задачи старые добрые электронные таблицы могут оказаться более подходящим инструментом.

Следующий пример содержит пять наблюдений. В таблице 1 показаны фактические значения, прогнозы и некоторые метрики, использованные для расчета большинства рассмотренных метрик.

Первые три строки содержат сценарии, в которых абсолютная разница между фактическим значением и прогнозом составляет 20. Первые две строки показывают завышенный и заниженный прогноз, равный 20, с одним и тем же фактическим значением. В третьей строке показан завышенный прогноз 20, но с меньшим фактическим значением. В этих рядах легко заметить особенности MAPE и sMAPE.

Пятая строка в таблице 1 содержала предсказание, в 8 раз меньше фактического значения. Ради эксперимента замените этот прогноз на тот, который в 8 раз выше фактического. Таблица 3 содержит пересмотренные наблюдения.

По сути, все метрики увеличились в размерах, что интуитивно понятно. Это не относится к sMAPE, который оставался неизменным в обоих случаях.

Я настоятельно рекомендую вам поиграть с такими игрушечными примерами, чтобы лучше понять, как различные сценарии влияют на показатели оценки. Это экспериментирование должно помочь вам принять решение о том, какую метрику оптимизировать, и о последствиях такого выбора. Эти упражнения также могут помочь вам объяснить ваш выбор заинтересованным сторонам.

Подведение итогов

В этом посте я рассмотрел некоторые из самых популярных метрик оценки регрессии. Как уже говорилось, у каждого из них есть свои преимущества и недостатки. И специалист по данным должен понять их и сделать выбор в отношении того, какой из них (или несколько) подходит для конкретного случая использования. Упомянутые показатели также могут применяться к задачам чистой регрессии, таким как прогнозирование заработной платы на основе набора функций, связанных с опытом, а также к области прогнозирования временных рядов.

Как всегда, любые конструктивные отзывы более чем приветствуются. Вы можете связаться со мной в Твиттере или в комментариях.

Понравилась статья? Станьте участником Medium, чтобы продолжить обучение, читая без ограничений. Если вы воспользуетесь этой ссылкой, чтобы стать участником, вы поддержите меня без каких-либо дополнительных затрат с вашей стороны. Заранее спасибо и до встречи!

Вас также может заинтересовать один из следующих материалов:

Работа с выбросами с использованием трех надежных моделей линейной регрессии
С практическим примером использования алгоритмов регрессии Huber, RANSAC и Theil-Sentowardsdatascience.com

Проверка предположений о линейной регрессии в Python и R
Погрузитесь глубже в теорему Гаусса-Маркова и другие предположения о линейной регрессии!towardsdatascience.com

Интерпретация коэффициентов линейной регрессии
Узнайте, как правильно интерпретировать результаты линейной регрессии — включая случаи с преобразованиями переменных в сторону datascience.com

Выбор правильной метрики ошибок: MAPE и sMAPE
Плюсы и минусы двух популярных метрик ошибокtowardsdatascience.com