Худшая производительность моделей ML (машинного обучения) в значительной степени связана с переоснащением и недообучением. Как и в прошлом, мы обнаружили, что обобщением является идея о том, что каждая модель должна работать, но переоснащение и недообучение будут сопровождать их, поэтому мы, как правило, должны больше осознавать, что модель не должна выполнять переоснащение и недообучение. Жизненно важным фактором при определении целевой функции на основе обучающих данных является то, насколько хорошо модель обобщает новые данные. Обобщение важно, потому что данные, которые мы получаем, являются лишь выборкой, они неполны и зашумлены.

Переоснащение: -

Переобучение — это ошибка в ML, что означает, что модель очень хорошо обучается на обучающем наборе данных.

Переобучение происходит, когда модель изучает детали и шум в обучающих данных до такой степени, что это отрицательно влияет на внешний вид модели на совершенно новых данных. Это на самом деле дает нам представление о том, что шум в наборе обучающих данных улавливается и изучается моделью как идеи. Проблема в том, что эти идеи неприменимы к тестовому набору данных и негативно влияют на способность модели к обобщению.

Переоснащение более вероятно с непараметрическими и нелинейными моделями, которые обладают большей гибкостью при изучении целевой функции. Есть много моделей, которые могут столкнуться с этой проблемой, например. Случайный лес.

Например, деревья решений — это непараметрический алгоритм машинного обучения, очень гибкий и подверженный переобучению обучающих данных. Эту проблему можно решить, обрезав дерево после того, как оно научилось, чтобы удалить некоторые детали, которые оно уловило. Эту проблему можно увидеть много раз в деревьях решений.

Недоподготовка в машинном обучении

Переобучение — это ошибка в ML, которая означает, что модель не может обобщаться на новые данные, а также не может соответствовать набору обучающих данных.

Модель машинного обучения с недостаточным соответствием не является лучшей моделью, и это будет ясно, поскольку она будет иметь плохую производительность на обучающих данных, а также будет хуже работать на наборе тестовых данных.

Недообучение часто не обсуждается, поскольку его легко обнаружить, учитывая хороший показатель производительности. Решение состоит в том, чтобы двигаться дальше и попробовать альтернативные алгоритмы машинного обучения. Тем не менее, это хорошо контрастирует с проблемой переобучения. Так что мое единственное предложение для вас, чтобы попробовать какую-нибудь новую модель, и это поможет много раз.

Поскольку мы видели определение как недообучения, так и переобучения, и мы уверены, что недообучение не представляет такой большой угрозы, его можно решить, просто попробовав новую модель, но переоснащение является серьезной ошибкой в ​​​​моделях машинного обучения, поэтому для устранения этой ошибки есть некоторые несколько советов с моей стороны для вас.

Overfitting — Решение этой ошибки

Переобучение — это такая проблема, потому что оценка алгоритмов машинного обучения на обучающих данных отличается от оценки набора данных, который мы действительно хотим, чтобы модель работала хорошо.

Есть две мощные процедуры, которые можно использовать при оценке алгоритмов машинного обучения для устранения переобучения:

  1. Техника повторной выборки.
  2. Набор данных проверки.

Распространенным методом горячей повторной выборки является перекрестная проверка в k-кратном порядке. Это позволяет нам обучать и тестировать вашу модель k раз на различных подмножествах обучающих данных и строить оценку производительности модели машинного обучения на невидимых данных.

Набор данных проверки — это просто подмножество ваших обучающих данных, которые вы удерживаете от своих алгоритмов машинного обучения до самого конца вашего проекта. После того, как вы выбрали и настроили алгоритмы машинного обучения в своем наборе обучающих данных, вы можете оценить изученные модели в наборе проверочных данных, чтобы получить окончательное объективное представление о том, как модели могут работать с невидимыми данными.

Я надеюсь, что это поможет вам понять самую большую ошибку в модели машинного обучения, а также поможет вам ее устранить. #bug_smash