Большинство из нас начинают свой путь в науке о данных и машинном обучении с набора алгоритмов, обычно называемых машинным обучением под наблюдением. Машинное обучение с учителем наиболее полезно в задачах, где нам нужно выполнить какой-то прогноз. То есть алгоритм принимает данные, учится на них, а затем может делать прогнозы на невидимых данных.
Существует множество доступных алгоритмов, которые позволяют нам выполнять эти прогнозы. Как вы можете себе представить, каждый из этих алгоритмов ведет себя по-разному, проявляя себя в разных ситуациях. Одно из ключевых различий между ними заключается в том, сколько предвзятости и дисперсии они вызывают.
Типы ошибок предсказания:
- Шум. Шум, также известный как «неустранимая ошибка», – это ошибка, которую нельзя уменьшить с помощью выбранного вами алгоритма. Обычно это происходит из-за внутренней случайности, неправильно сформулированной проблемы или неполного набора функций в наших данных. т. е. это ошибка, встроенная в данные.
- Смещение. Смещение — это разница между ожидаемыми прогнозами вашей модели и истинными значениями. Модель с высоким смещением не уделяет достаточного внимания обучающим данным и чрезмерно упрощает модель. т. е. модель не может точно вывести взаимосвязь между входными и выходными переменными. Это известно как Недоподгонка.
На приведенном выше рисунке линия линейной регрессии соответствует нелинейным данным. Это пример модели с большим смещением. т. е. Недостаточное оснащение
3. Дисперсия. Дисперсия относится к чувствительности вашего алгоритма к определенным наборам обучающих данных. Это изменчивость, создаваемая моделью между различными наблюдениями в одних и тех же обучающих данных.
Алгоритмы с высокой дисперсией будут создавать совершенно разные модели в зависимости от обучающей выборки.
Как видно на рисунке выше, алгоритм также хорошо объясняет входные и выходные переменные. т. е. Алгоритм в основном полностью запомнил обучающие данные и может отображать каждую точку данных в нашем обучающем наборе. Это известно как Переобучение.
Компромисс смещения и дисперсии:
Если наша модель слишком проста и имеет очень мало параметров, она может иметь большое смещение (низкую дисперсию), что приводит к:
› Модели обучения, которые в среднем неточны, но последовательны.
С другой стороны, если наша модель слишком сложна, она может иметь низкое смещение (высокую дисперсию), что приводит к:
› Модели обучения, которые в среднем точны, но противоречивы.
Этот компромисс в сложности является причиной компромисса между систематической ошибкой и дисперсией — алгоритм не может быть одновременно более сложным и менее сложным.
ОБЩАЯ ОЦЕНКА ОШИБКИ
Чтобы построить хорошую прогностическую модель, вам нужно найти баланс между смещением и дисперсией, который минимизирует общую ошибку.
Общая ошибка = погрешность² + дисперсия + неустранимая ошибка
Оптимальный баланс смещения и дисперсии никогда не будет соответствовать модели больше или меньше.
Ниже приведены два примера настройки компромисса смещения и дисперсии для конкретных алгоритмов:
- Алгоритм k-ближайших соседей имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив значение k, что увеличивает количество соседей, которые вносят вклад в прогноз, и, в свою очередь, увеличивает смещение модели.
- Алгоритм машины опорных векторов имеет низкое смещение и высокую дисперсию, но компромисс можно изменить, увеличив параметр C, который влияет на количество нарушений допустимого поля в обучающих данных, что увеличивает смещение, но уменьшает дисперсию.
Ссылки: