Большинство из нас начинают свой путь в науке о данных и машинном обучении с набора алгоритмов, обычно называемых машинным обучением под наблюдением. Машинное обучение с учителем наиболее полезно в задачах, где нам нужно выполнить какой-то прогноз. То есть алгоритм принимает данные, учится на них, а затем может делать прогнозы на невидимых данных.

Существует множество доступных алгоритмов, которые позволяют нам выполнять эти прогнозы. Как вы можете себе представить, каждый из этих алгоритмов ведет себя по-разному, проявляя себя в разных ситуациях. Одно из ключевых различий между ними заключается в том, сколько предвзятости и дисперсии они вызывают.

Типы ошибок предсказания:

  1. Шум. Шум, также известный как «неустранимая ошибка», – это ошибка, которую нельзя уменьшить с помощью выбранного вами алгоритма. Обычно это происходит из-за внутренней случайности, неправильно сформулированной проблемы или неполного набора функций в наших данных. т. е. это ошибка, встроенная в данные.
  2. Смещение. Смещение — это разница между ожидаемыми прогнозами вашей модели и истинными значениями. Модель с высоким смещением не уделяет достаточного внимания обучающим данным и чрезмерно упрощает модель. т. е. модель не может точно вывести взаимосвязь между входными и выходными переменными. Это известно как Недоподгонка.

На приведенном выше рисунке линия линейной регрессии соответствует нелинейным данным. Это пример модели с большим смещением. т. е. Недостаточное оснащение

3. Дисперсия. Дисперсия относится к чувствительности вашего алгоритма к определенным наборам обучающих данных. Это изменчивость, создаваемая моделью между различными наблюдениями в одних и тех же обучающих данных.

Алгоритмы с высокой дисперсией будут создавать совершенно разные модели в зависимости от обучающей выборки.

Как видно на рисунке выше, алгоритм также хорошо объясняет входные и выходные переменные. т. е. Алгоритм в основном полностью запомнил обучающие данные и может отображать каждую точку данных в нашем обучающем наборе. Это известно как Переобучение.

Компромисс смещения и дисперсии:

Если наша модель слишком проста и имеет очень мало параметров, она может иметь большое смещение (низкую дисперсию), что приводит к:

Модели обучения, которые в среднем неточны, но последовательны.

С другой стороны, если наша модель слишком сложна, она может иметь низкое смещение (высокую дисперсию), что приводит к:

Модели обучения, которые в среднем точны, но противоречивы.

Этот компромисс в сложности является причиной компромисса между систематической ошибкой и дисперсией — алгоритм не может быть одновременно более сложным и менее сложным.

ОБЩАЯ ОЦЕНКА ОШИБКИ

Чтобы построить хорошую прогностическую модель, вам нужно найти баланс между смещением и дисперсией, который минимизирует общую ошибку.

Общая ошибка = погрешность² + дисперсия + неустранимая ошибка

Оптимальный баланс смещения и дисперсии никогда не будет соответствовать модели больше или меньше.

Ниже приведены два примера настройки компромисса смещения и дисперсии для конкретных алгоритмов:

  • Алгоритм k-ближайших соседей имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив значение k, что увеличивает количество соседей, которые вносят вклад в прогноз, и, в свою очередь, увеличивает смещение модели.
  • Алгоритм машины опорных векторов имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив параметр C, который влияет на количество нарушений допустимого поля в обучающих данных, что увеличивает смещение, но уменьшает дисперсию.

Ссылки:

https://machinelearningmastery.com/gentle-introduction-to-the-bias-variance-trade-off-in-machine-learning/