Машинное обучение: как предотвратить переоснащение

Введение:

При построении модели машинного обучения важно убедиться, что ваша модель не слишком или недостаточно подходит. В то время как недостаточная подгонка обычно является результатом того, что модель не имеет достаточного количества данных, чрезмерная подгонка может быть результатом ряда различных сценариев. Задача машинного обучения - построить модель, которая хорошо работает как с обучающими данными, так и с новыми данными, которые добавляются для прогнозирования.

Недостаточная подгонка - когда статистическая модель не адекватно отражает основную структуру данных и, следовательно, не включает некоторые параметры, которые могли бы появиться в правильно заданной модели.
Чрезмерная подгонка - когда статистическая модель содержит больше параметров, которые могут быть подтверждены данными, и включает остаточную вариацию («шум»), как если бы вариация представляла основную структуру модели. Модель плохо обобщается от обучающих данных до новых, невидимых данных.
Хорошая совместимость - когда статистическая модель адекватно изучает набор обучающих данных и хорошо обобщается на новые данные

Компромисс между отклонением и отклонением:

Чтобы лучше понять чрезмерную подгонку, мы должны рассмотреть проблемы, которые вызывают недостаточную подгонку. Недостаточная подгонка возникает, когда модель слишком проста (недостаточно наблюдений или функций) и, следовательно, не учитывает данные, которые ей предоставляются. Эти модели имеют меньшую вариативность в своих прогнозах, но большую предвзятость в отношении определенных результатов. С другой стороны, слишком сложные модели имеют больше вариаций в своих прогнозах. Как правило, мы можем уменьшить ошибку из-за систематической ошибки, но в результате можем увеличить ошибку из-за дисперсии или наоборот. Это известно как компромисс смещения и дисперсии.

Как определить, что модель переоборудована:

С машинным обучением сложно определить, насколько хорошо модель будет работать с новыми данными, пока она не будет фактически протестирована. Чтобы избежать этой проблемы, важно разделить данные, которые используются для обучения модели, на данные обучения и тестирования. Как правило, данные обучения и данные тестирования должны иметь разделение между 80% данных обучения и 20% данных тестирования, 70% данных обучения и 30% данных тестирования.

После разделения обучающих данных и данных тестирования вы можете определить, является ли ваша модель чрезмерной, сравнив, как модель работает на обучающем наборе, с тем, как она работает на тестовом наборе. Если модель работает значительно лучше на обучающем наборе, чем на тестовом, то это, вероятно, переоснащение.

Способы предотвращения чрезмерной подгонки:

Тренируйтесь с большим количеством данных - обучение с большим количеством данных может помочь модели определить тенденции в данных, чтобы делать более точные прогнозы. Хотя это может быть эффективным способом предотвращения чрезмерной подгонки, важно, чтобы данные были чистыми и актуальными (без «зашумленных» данных), иначе этот метод может оказаться бесполезным.
Перекрестная проверка - используется для оценки того, насколько точно прогнозная модель будет работать на практике. Перекрестная проверка включает в себя разбиение выборки данных на подмножества, выполнение анализа обучающего набора и проверки анализа набора тестирования. Целью перекрестной проверки является проверка способности модели прогнозировать новые данные, которые не использовались при ее оценке, чтобы указать, не будет ли чрезмерная подгонка проблемой для модели.
Ранняя остановка. Если вы обучаете модель итеративно, вы можете определить, насколько хорошо работает каждая итерация модели. Новые итерации часто помогают улучшить модель до определенной итерации. После этой определенной итерации точность модели может снизиться и начать переобучаться обучающим данным.
Регуляризация - это форма регрессии, которая ограничивает оценки коэффициентов модели до нуля. Этот метод не позволяет использовать более сложную модель, чтобы избежать риска чрезмерной подгонки. Двумя распространенными формами регуляризации являются регрессия Риджа и регрессия Лассо. В то время как регрессия Риджа сокращает коэффициенты для менее важных предикторов до близких к нулю, регрессия Лассо сокращает коэффициенты для менее важных предикторов до нуля, по существу выполняя выбор переменных.
Объединение. Методы объединения - это методы, которые создают несколько моделей, а затем объединяют их для получения улучшенных результатов. Эти методы обычно дают более точные решения, чем одна модель. Одним из распространенных методов ансамбля является классификатор голосования. При жестком голосовании будет выбран класс прогноза, получивший наибольшее количество голосов от каждой отдельной модели. При мягком голосовании общее количество голосов от каждой отдельной модели суммируется, чтобы выбрать класс прогноза.

Ссылки:

Браунли, Джейсон. «Как избежать переобучения в нейронных сетях с глубоким обучением». Machine Learning Mastery, 6 августа 2019 г., machinelearningmastery.com/introduction-to-regularization-to-reduce-overfitting-and-improve-generalization-error/.
Линь, Чуан-эн (Давид). «8 простых методов предотвращения переобучения». Средний, Towards Data Science, 7 июня 2020 г., todatascience.com/8-simple-techniques-to-prevent-overfitting-4d443da2ef7d.
«Переобучение в машинном обучении: что это такое и как его предотвратить». EliteDataScience, 23 мая 2020 г., elitedatascience.com/overfitting-in-machine-learning.
Некати Демир, доктор философии. Ансамблевые методы: элегантные методы для улучшения результатов машинного обучения. Технический блог Toptal, Toptal, 4 февраля 2016 г., www.toptal.com/machine-learning/ensemble-methods-machine-learning.
Бханде, Ануп. «Что не подходит и что переоснащают в машинном обучении и как с этим бороться». Medium, GreyAtom, 18 марта 2018 г., medium.com/greyatom/what-is-underfitting-and-overfitting-in-machine-learning-and-how-to-deal-with-it- 6803a989c76.