Что вы подразумеваете под техникой ансамбля? Сначала давайте разберемся, что такое ансамбль.
Ансамбль: — группа, производящая один эффект. Ансамблевые методы – это методы, которые создают несколько моделей, а затем комбинируют их для получения улучшенных результатов.
Ансамблевые методы можно разделить на две группы:
Последовательные ансамблевые методы, при которых базовые обучающиеся генерируются последовательно (например, AdaBoost).
Параллельный ансамбль, при котором базовые обучающиеся генерируются параллельно (например, случайный лес).
Методы ансамбля — это метаалгоритмы, которые объединяют несколько методов машинного обучения в одну прогностическую модель, чтобы уменьшить дисперсию, уменьшить систематическую ошибку и улучшить прогнозы.
Уменьшить дисперсию == Бэггинг
Уменьшить систематическую ошибку == Повышение
Улучшить прогнозы == Сложить
Создание пакетов. Подгонка множества деревьев решений к разным образцам одного и того же набора данных и усреднение прогнозов. здесь наша цель — уменьшить дисперсию дерева решений.
Алгоритмы: — Случайный лес, Дерево решений
#Небольшой совет : — Все учащиеся Бэггингу учатся слабо. Все учащиеся учатся друг у друга независимо параллельно и объединяют их для определения среднего значения модели.
Усиление: включает в себя последовательное добавление членов ансамбля, которые корректируют прогнозы, сделанные предыдущими моделями, и выводят средневзвешенное значение прогнозов.
Алгоритмы: — XGB, GB, AdaBoost
#Совет: — Мы можем создать сильного ученика из группы слабых учеников. В этой модели учащиеся учатся последовательно и адаптивно, чтобы улучшить предсказания модели алгоритма обучения.
Наложение. Включает подбор множества различных типов моделей для одних и тех же данных и использование другой модели, чтобы узнать, как наилучшим образом комбинировать прогнозы. Алгоритмы: — Смешивание, Суперансамбль
Голосование, усреднение и взвешенное усреднение являются основными методами ансамбля. Они оба просты для понимания и реализации. Голосование используется для классификации, а усреднение — для регрессии. Во всех методах первым шагом является создание нескольких моделей классификации/регрессии с использованием некоторого обучающего набора данных.
Голосование: — несколько моделей используются для прогнозирования каждой точки данных. Предсказания каждой модели считаются «голосованием». Прогнозы, которые мы получаем из большинства моделей, используются в качестве окончательного прогноза.
#Конечные узлы в дереве решений, их объединение дает нам предикацию. Например, какая партия победит на выборах, вывод будет в бинарной форме (1/0, Да/Нет и т.д.)
Усреднение: усреднение прогнозов по всем моделям и его использование для окончательного прогноза. Усреднение можно использовать для прогнозирования в задачах регрессии.
#Прогнозирование цены дома, какова будет цена дома в зависимости от удобств в районе (не ограничивается двоичной формой, обычно в цифрах)
Средневзвешенное значение: расширение метода усреднения. Всем моделям присваиваются разные веса, определяющие важность каждой модели для прогнозирования.
#Предположим, у вас есть 10 друзей. Двое из них являются специалистами по данным, в то время как у других нет опыта в этой области, поэтому ответы этих двух друзей имеют большее значение по сравнению с другими друзьями.
Сходства и различия между бэггингом и бустингом: -
Будущий блог: я буду делиться информацией и кодами Ensemble Algorithms в будущих блогах.