Как специалист по данным, ваша цель при построении подходящей модели — оптимизировать предсказание целевой переменной на основе ряда показателей (функций). Итак, как мы оцениваем эту оптимизацию? В машинном обучении цель состоит в том, чтобы оценить функцию, которая минимизирует среднеквадратичное расстояние ошибки между оценочной функцией и истинной функцией. Это может быть представлено уравнением ниже:

Где:

· n — количество прогнозов.

· y_i – фактическое целевое значение.

· y_hat_i – прогнозируемое целевое значение.

Произошли ошибки

Для любой модели машинного обучения существует два типа ошибок, влияющих на MSE, которые необходимо учитывать.

1. Ошибка смещения — предположения, сделанные моделью, чтобы облегчить изучение предполагаемых целевых значений.

2. Ошибка дисперсии — величина, на которую изменится оценка цели, если используются другие обучающие данные.

На самом деле мы можем доказать это, используя формулу MSE, которая принимает следующий вид:

Однако это доказательство не рассматривается в этой статье для простоты.

Ошибка смещения

Более простые алгоритмы, такие как линейная и логистическая регрессия, содержат большое количество упрощающих допущений. Их привлекательность заключается в скорости подхода, но они часто являются более слабыми предикторами для прогнозирования производительности в задачах с большим объемом измерений, поскольку они могут похвастаться меньшей гибкостью для решения этих проблем.

Для сравнения, более сложные методы машинного обучения, такие как машины опорных векторов, обладают большей гибкостью при решении более сложных задач и, как правило, лучше подходят для данных. Следовательно, они имеют меньшую ошибку смещения.

Ошибка отклонения

Ошибка дисперсии получается из величины, на которую изменится оценка цели, если используются другие обучающие данные. Более сложные (как правило, нелинейные) алгоритмы машинного обучения имеют более высокую дисперсию, поскольку их гибкость в точном решении этого конкретного набора данных означает большее влияние от использования нового набора данных. Для сравнения, менее сложные решения не имеют этой проблемы в той же степени.

Компромисс между погрешностью и дисперсией

Итак, что мы можем сказать из этого? Проще говоря, вам, как специалисту по данным, всегда нужно помнить об этой проблеме и о том, что уменьшение дисперсии увеличивает предвзятость и наоборот. Реальные термины смещения и ошибки никогда не будут ясны, поскольку мы не знаем ответов на наши тестовые данные, хотя для практикующего специалиста по данным важно всегда помнить о компромиссе.