Дерево решений — один из популярных алгоритмов машинного обучения, который является ступенькой для понимания методов ансамбля с использованием деревьев.
Кроме того, алгоритм дерева решений является горячей темой во многих интервью, которые проводятся в области науки о данных.
Понимание дерева решений...
Дерево решений - это скорее своего рода инструмент управления, который используется многими профессионалами для принятия решений относительно затрат ресурсов, решение должно быть принято на основе примененных фильтров.
Лучшая часть дерева решений заключается в том, что это непараметрический инструмент, а это означает, что в нем нет базовых предположений о распределении ошибок или данных. В основном это означает, что модель строится на основе наблюдаемых данных.
Они адаптируются при решении любой задачи (классификация или регрессия). Алгоритмы дерева решений называются CART (деревья классификации и регрессии).
Общие термины, используемые с деревьями решений:
- Корневой узел. Он представляет собой всю совокупность или выборку, которая затем делится на два или более однородных набора.
- Разделение. Это процесс разделения узла на два или более подузла.
- Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.
- Листовой/терминальный узел. Узлы, которые не разделяются, называются конечными или конечными узлами.
- Max_Depth: полный путь дерева от корня до конечных узлов.
- Ветвь/Поддерево. Подраздел всего дерева называется ветвью или поддеревом.
- Родительский и дочерний узлы. Узел, который разделен на подузлы, называется родительским узлом подузлов, тогда как подузлы являются дочерними по отношению к родительскому узлу.
Как работает дерево решений!
- Во-первых, мы переберем все возможные расщепления, рассчитаем чистоту каждого расщепления и выберем расщепление.
- Чистота сравнивается по всем этикеткам и выбирается лучшая. Это делает корневой узел лучшим предиктором.
- Этот алгоритм является рекурсивным по своей природе, поскольку сформированные группы могут быть разделены, и процесс повторяется до тех пор, пока дерево не вырастет полностью.
Основные области принятия решений:
- Определить наилучшее разделение:
Предпочтение отдается узлу с однородным распределением классов.
2. Показатели загрязнения узла. Ниже приведены показатели загрязнения узла.
(а). Индекс Джини
(б). Энтропия
(с). Ошибка неправильной классификации
Понимание каждой терминологии на примере:
Возьмем набор данных-погода, ниже снимок заголовка данных:
Теперь, в соответствии с написанным выше алгоритмом и рассматриваемыми точками принятия решений, нам нужен признак с максимально возможным разделением информации.
Примечание. В корневом узле уровень загрязнения будет максимальным с незначительным приростом информации. По мере того, как мы спускаемся по дереву, энтропия уменьшается с максимизацией прироста информации. Поэтому мы выбираем функцию с максимальным приростом.
Таким образом, вычисление меры примеси для набора данных о погоде с использованием энтропии:
Для каждой функции мы рассчитаем энтропию, например. Внешний вид и ветреность рассчитывается следующим образом:
После расчета для всех функций для корневого узла будет выбрана конкретная функция с максимальной мерой примеси (энтропия).
Ниже приведено краткое описание всех функций:
Итак, наш корневой узел — Outlook.
Повторите то же самое для поддеревьев, пока не вырастет все дерево. Ниже приведено окончательное дерево решений:
Индекс Джини:
В научном наборе по машинному обучению индекс Джини используется в качестве метода по умолчанию для оценки примесей. Однако результат в результате вряд ли имеет какое-либо значение при использовании энтропии или Джини, но, поскольку существуют две разные меры, мы должны знать их обе.
Индекс Джини для переменной Binary Target: -
Оценка Джини дает представление о том, насколько хорошо разделение, по тому, насколько смешаны классы в двух группах, созданных в результате разделения. Идеальное разделение приводит к показателю Джини, равному 0, тогда как в худшем случае разделение приводит к 50/50 классам.
Мы вычисляем его для каждой строки и соответствующим образом разделяем данные в нашем двоичном дереве. Повторяем этот процесс рекурсивно.
Для переменной Binary Target значение максимального индекса Джини:
= 1 — (1/2)² — (1/2)²
= 1–2*(1/2)²
= 1- 2*(1/4)
= 1–0.5
= 0.5
Постройте график для демонстрации индекса энтропии и Джини для лучшего понимания:
Получение информации:
Менее нечистый узел требует меньше информации для его описания. И более нечистый узел требует больше информации. Прирост информации является мерой для определения степени дезорганизации в системе, известной как энтропия. Если выборка полностью однородна, то энтропия равна нулю, а если выборка поровну (50% — 50%), то энтропия равна единице. Он выбирает разбиение, которое имеет более низкую энтропию по сравнению с родительским узлом и другими разбиениями. Чем меньше энтропия, тем лучше.
Примечание. Настройка гиперпараметров — очень важный шаг в любом алгоритме дерева решений.
Основные гиперпараметры, которые необходимо настроить:
- max_depth: определяет общую глубину дерева, обычно его следует настраивать, иначе это приведет к переобучению модели.
- min_samples_leaf: минимальное количество образцов, требуемое на листовых узлах. Точка разделения на любой глубине будет считаться, если в ветвях останется min_samples_leaf.
- max_leaf_nodes: вырастите дерево с максимальным числом конечных узлов, чтобы получить наилучшие результаты.
Основная причина настройки этих гиперпараметров заключается в том, что если мы не будем контролировать рост дерева, то, наконец, все листовые узлы будут иметь 1 выборку с большой глубиной (в случае больших признаков в наборе данных), что может привести к перегрузке. - подгонка в значительной степени и, следовательно, снижает точность модели и в то же время увеличивает сложность модели.
Преимущества дерева решений:
- Деревья решений легко интерпретировать.
- Для построения дерева решений от пользователя требуется меньше подготовки данных, поскольку нет необходимости нормализовать или масштабировать данные.
Недостатки дерева решений:
- Как правило, дерево решений имеет тенденцию к чрезмерному подбору данных, что приводит к увеличению сложности модели, а также к увеличению дисперсии в модели.
- Дерево решений также называют жадным алгоритмом, поскольку небольшое изменение в наборе данных может оказать большое влияние на общую модель.
Тем не менее, дерево решений — это базовая модель, которая всегда полезна для всех специалистов по машинному обучению, поскольку она также помогает визуализировать распределение набора данных и все показывает лучшие функции в нашем наборе данных.