Что вы подразумеваете под техникой ансамбля? Сначала давайте разберемся, что такое ансамбль.

Ансамбль: — группа, производящая один эффект. Ансамблевые методы – это методы, которые создают несколько моделей, а затем комбинируют их для получения улучшенных результатов.

Ансамблевые методы можно разделить на две группы:

Последовательные ансамблевые методы, при которых базовые обучающиеся генерируются последовательно (например, AdaBoost).

Параллельный ансамбль, при котором базовые обучающиеся генерируются параллельно (например, случайный лес).

Методы ансамбля — это метаалгоритмы, которые объединяют несколько методов машинного обучения в одну прогностическую модель, чтобы уменьшить дисперсию, уменьшить систематическую ошибку и улучшить прогнозы.

Уменьшить дисперсию == Бэггинг
Уменьшить систематическую ошибку == Повышение
Улучшить прогнозы == Сложить

Создание пакетов. Подгонка множества деревьев решений к разным образцам одного и того же набора данных и усреднение прогнозов. здесь наша цель — уменьшить дисперсию дерева решений.
Алгоритмы: — Случайный лес, Дерево решений

#Небольшой совет : — Все учащиеся Бэггингу учатся слабо. Все учащиеся учатся друг у друга независимо параллельно и объединяют их для определения среднего значения модели.

Усиление: включает в себя последовательное добавление членов ансамбля, которые корректируют прогнозы, сделанные предыдущими моделями, и выводят средневзвешенное значение прогнозов.
Алгоритмы: — XGB, GB, AdaBoost

#Совет: — Мы можем создать сильного ученика из группы слабых учеников. В этой модели учащиеся учатся последовательно и адаптивно, чтобы улучшить предсказания модели алгоритма обучения.

Наложение. Включает подбор множества различных типов моделей для одних и тех же данных и использование другой модели, чтобы узнать, как наилучшим образом комбинировать прогнозы. Алгоритмы: — Смешивание, Суперансамбль

Голосование, усреднение и взвешенное усреднение являются основными методами ансамбля. Они оба просты для понимания и реализации. Голосование используется для классификации, а усреднение — для регрессии. Во всех методах первым шагом является создание нескольких моделей классификации/регрессии с использованием некоторого обучающего набора данных.

Голосование: — несколько моделей используются для прогнозирования каждой точки данных. Предсказания каждой модели считаются «голосованием». Прогнозы, которые мы получаем из большинства моделей, используются в качестве окончательного прогноза.

#Конечные узлы в дереве решений, их объединение дает нам предикацию. Например, какая партия победит на выборах, вывод будет в бинарной форме (1/0, Да/Нет и т.д.)

Усреднение: усреднение прогнозов по всем моделям и его использование для окончательного прогноза. Усреднение можно использовать для прогнозирования в задачах регрессии.

#Прогнозирование цены дома, какова будет цена дома в зависимости от удобств в районе (не ограничивается двоичной формой, обычно в цифрах)

Средневзвешенное значение: расширение метода усреднения. Всем моделям присваиваются разные веса, определяющие важность каждой модели для прогнозирования.

#Предположим, у вас есть 10 друзей. Двое из них являются специалистами по данным, в то время как у других нет опыта в этой области, поэтому ответы этих двух друзей имеют большее значение по сравнению с другими друзьями.

Сходства и различия между бэггингом и бустингом: -

Будущий блог: я буду делиться информацией и кодами Ensemble Algorithms в будущих блогах.