Предположение об I.I.D является центральным почти для всех алгоритмов машинного обучения и явным предположением в большинстве статистических выводов.

Давайте попробуем понять, что это такое и почему это так важно в машинном обучении и статистике.

Независимое и идентичное распределение - это когда распределение хорошо, независимо и одинаково распределено. Давайте попробуем разобраться в этом подробнее.

Что делает переменные независимыми?

Под независимыми мы подразумеваем, что выборки, взятые из отдельных случайных величин, не зависят друг от друга. Выборки, взятые из случайных величин, не содержат внутренней зависимости между собой.

Давайте посмотрим на простые примеры зависимых и независимых распределений:

Независимое мероприятие

  • Представьте себе подбрасывание монеты. Если вы получите орел в первом испытании, вероятность выпадения орла или решки в следующем испытании не изменится (по-прежнему вероятность 50–50). Подбрасывание каждой монеты не зависит друг от друга. Также следует отметить, что не имеет значения, подбрасываете ли вы честную или несправедливую монету, каждый образец не зависит от других образцов. Точно так же, если вы бросаете кости, результаты и образцы этих результатов не зависят друг от друга.

Если бы мы хотели объединить и подбрасывание монеты, и бросок в одну выборку, скажем, я хочу (H, 2) из ​​комбинации подбрасывания монеты и броска кости соответственно, они все равно останутся независимыми друг от друга.

В таком случае :

Зависимое событие

  • Игра змейки и лестницы, в которой ходы определяются кубиками, является примером зависимого события. Эта конкретная игра также называется цепью Маркова первого порядка, где единственное, что имеет значение, - это текущее состояние доски, а следующее состояние определяется текущим состоянием и следующим броском костей. Любую марковскую последовательность можно рассматривать как независимое (или зависимое) распределение, и мы можем ясно видеть лежащую в основе зависимость состояния или выборки от его предыдущего состояния.

Что делает дистрибутив идентичным?

Есть разные способы понять идентичное распределение. Давайте посмотрим на несколько способов понять это:

Математически:

  • Выборки распределяются одинаково, если мы делаем выборку из одной и той же математической функции таким же образом.
  • Все элементы в выборке взяты из одного и того же вероятностного распределения.

В общих чертах:

  • Распределение идентично, если выборки происходят из одной и той же случайной величины.
  • Это также может означать: базовый механизм, который генерирует данные, должен быть одинаковым для всех рассматриваемых выборок.

Примером этого может быть систематическая ошибка выборочной выборки, когда у вас есть больше обучающих данных из одной подгруппы или слоев вашей популяции, и вы хотите обобщить их для всей генеральной совокупности.

Примечание: одинаковое распределение не означает, что задействованные случайные величины должны иметь одинаковые или похожие вероятности.

Теперь, когда у нас есть хорошее представление о том, что такое I.I.D, давайте попробуем понять, что делает его таким важным в машинном обучении.

Важность I.I.D в машинном обучении

  • Возьмем пример обучения с учителем. Здесь мы разделяем наши наборы данных на обучающие и тестовые наборы данных, обучаем на нашем обучающем наборе данных и тестируем производительность нашей модели на тестовом наборе данных.
    Встроенное предположение при разделении данных на набор проверочных проверок является предположением I.I.D. Если распределения между обучающим и тестовым набором различаются или если есть встроенные зависимости выборки, алгоритм не сможет обобщить после его развертывания / работы.
    Еще один момент, на который следует обратить внимание, - это то, что он также предполагается что распределение данных не меняет после развертывания. Если он изменится (так называемый сдвиг набора данных из-за нестационарной среды), нам, возможно, придется переобучить модель или использовать методы активного обучения / онлайн-обучения, чтобы поддерживать наши модели в актуальном состоянии.
  • Фундаментальный принцип, лежащий в основе этой идеи, называется Минимизация эмпирического риска (ERM), который является центральным для многих алгоритмов машинного обучения и интеллектуального анализа данных. ERM заслуживает отдельной углубленной статьи, но вкратце он сообщает, что невозможно вычислить истинный риск, связанный с гипотезой h, которая сопоставляет векторы признаков X с метками Y, поскольку мы не знаем истинного распределения полных данных алгоритма буду работать дальше. Следовательно, мы можем вычислить эмпирический риск, усреднив функцию потерь на обучающих данных и сосредоточившись на выборе наилучшей гипотезы, чтобы минимизировать эмпирический риск.
  • Допущение IID также является центральным в законе больших чисел, который гласит, что наблюдаемое среднее значение по большой выборке будет близко к истинному среднему значению по совокупности и что оно станет ближе к истинному среднему значению по совокупности. по мере увеличения размера выборки
  • Предположение I.I.D также лежит в основе одной из наиболее широко используемых теорем в науке о данных, центральной предельной теоремы (CLT), которая составляет основу проверки гипотез. CLT утверждает, что если мы возьмем достаточно большие случайные выборки из генеральной совокупности, то средние по выборке будут приблизительно нормально распределены. Как вы можете заметить, выбранные случайные выборки не могут быть зависимыми, а распределение случайных величин не может меняться, скажем, со временем.

Таким образом, предположение I.I.D помогает упростить алгоритмы обучения машинного обучения, предполагая, что распределение данных не будет меняться во времени или пространстве, а выборка в любом случае не будет зависеть друг от друга. Что в конечном итоге помогает нам ограничить обучение определенным подмножеством населения и в конечном итоге развернуть нашу модель для прогнозирования дальнейших наборов данных.

В следующих нескольких статьях мы более подробно рассмотрим сценарии, в которых это предположение нарушается, и то, как мы можем сделать нашу модель более устойчивой к разным изменениям набора данных.

Несколько ссылок, которые вы можете использовать, чтобы глубже погрузиться в эту тему:

Лаборатория науки о данных

Минимизация эмпирического риска

Независимые и одинаково распределенные случайные величины

Рад услышать ваш отзыв. Вы можете связаться со мной через LinkedIn

Понравилась моя статья? Купи мне кофе