Дерево решений — один из популярных алгоритмов машинного обучения, который является ступенькой для понимания методов ансамбля с использованием деревьев.

Кроме того, алгоритм дерева решений является горячей темой во многих интервью, которые проводятся в области науки о данных.

Понимание дерева решений...

Дерево решений - это скорее своего рода инструмент управления, который используется многими профессионалами для принятия решений относительно затрат ресурсов, решение должно быть принято на основе примененных фильтров.

Лучшая часть дерева решений заключается в том, что это непараметрический инструмент, а это означает, что в нем нет базовых предположений о распределении ошибок или данных. В основном это означает, что модель строится на основе наблюдаемых данных.

Они адаптируются при решении любой задачи (классификация или регрессия). Алгоритмы дерева решений называются CART (деревья классификации и регрессии).

Общие термины, используемые с деревьями решений:

  1. Корневой узел. Он представляет собой всю совокупность или выборку, которая затем делится на два или более однородных набора.
  2. Разделение. Это процесс разделения узла на два или более подузла.
  3. Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.
  4. Листовой/терминальный узел. Узлы, которые не разделяются, называются конечными или конечными узлами.
  5. Max_Depth: полный путь дерева от корня до конечных узлов.
  6. Ветвь/Поддерево. Подраздел всего дерева называется ветвью или поддеревом.
  7. Родительский и дочерний узлы. Узел, который разделен на подузлы, называется родительским узлом подузлов, тогда как подузлы являются дочерними по отношению к родительскому узлу.

Как работает дерево решений!

  1. Во-первых, мы переберем все возможные расщепления, рассчитаем чистоту каждого расщепления и выберем расщепление.
  2. Чистота сравнивается по всем этикеткам и выбирается лучшая. Это делает корневой узел лучшим предиктором.
  3. Этот алгоритм является рекурсивным по своей природе, поскольку сформированные группы могут быть разделены, и процесс повторяется до тех пор, пока дерево не вырастет полностью.

Основные области принятия решений:

  1. Определить наилучшее разделение:

Предпочтение отдается узлу с однородным распределением классов.

2. Показатели загрязнения узла. Ниже приведены показатели загрязнения узла.

(а). Индекс Джини

(б). Энтропия

(с). Ошибка неправильной классификации

Понимание каждой терминологии на примере:

Возьмем набор данных-погода, ниже снимок заголовка данных:

Теперь, в соответствии с написанным выше алгоритмом и рассматриваемыми точками принятия решений, нам нужен признак с максимально возможным разделением информации.

Примечание. В корневом узле уровень загрязнения будет максимальным с незначительным приростом информации. По мере того, как мы спускаемся по дереву, энтропия уменьшается с максимизацией прироста информации. Поэтому мы выбираем функцию с максимальным приростом.

Таким образом, вычисление меры примеси для набора данных о погоде с использованием энтропии:

Для каждой функции мы рассчитаем энтропию, например. Внешний вид и ветреность рассчитывается следующим образом:

После расчета для всех функций для корневого узла будет выбрана конкретная функция с максимальной мерой примеси (энтропия).

Ниже приведено краткое описание всех функций:

Итак, наш корневой узел — Outlook.

Повторите то же самое для поддеревьев, пока не вырастет все дерево. Ниже приведено окончательное дерево решений:

Индекс Джини:

В научном наборе по машинному обучению индекс Джини используется в качестве метода по умолчанию для оценки примесей. Однако результат в результате вряд ли имеет какое-либо значение при использовании энтропии или Джини, но, поскольку существуют две разные меры, мы должны знать их обе.

Индекс Джини для переменной Binary Target: -

Оценка Джини дает представление о том, насколько хорошо разделение, по тому, насколько смешаны классы в двух группах, созданных в результате разделения. Идеальное разделение приводит к показателю Джини, равному 0, тогда как в худшем случае разделение приводит к 50/50 классам.

Мы вычисляем его для каждой строки и соответствующим образом разделяем данные в нашем двоичном дереве. Повторяем этот процесс рекурсивно.

Для переменной Binary Target значение максимального индекса Джини:

= 1 — (1/2)² — (1/2)²
= 1–2*(1/2)²
= 1- 2*(1/4)
= 1–0.5
= 0.5

Постройте график для демонстрации индекса энтропии и Джини для лучшего понимания:

Получение информации:

Менее нечистый узел требует меньше информации для его описания. И более нечистый узел требует больше информации. Прирост информации является мерой для определения степени дезорганизации в системе, известной как энтропия. Если выборка полностью однородна, то энтропия равна нулю, а если выборка поровну (50% — 50%), то энтропия равна единице. Он выбирает разбиение, которое имеет более низкую энтропию по сравнению с родительским узлом и другими разбиениями. Чем меньше энтропия, тем лучше.

Примечание. Настройка гиперпараметров — очень важный шаг в любом алгоритме дерева решений.

Основные гиперпараметры, которые необходимо настроить:

  1. max_depth: определяет общую глубину дерева, обычно его следует настраивать, иначе это приведет к переобучению модели.
  2. min_samples_leaf: минимальное количество образцов, требуемое на листовых узлах. Точка разделения на любой глубине будет считаться, если в ветвях останется min_samples_leaf.
  3. max_leaf_nodes: вырастите дерево с максимальным числом конечных узлов, чтобы получить наилучшие результаты.

Основная причина настройки этих гиперпараметров заключается в том, что если мы не будем контролировать рост дерева, то, наконец, все листовые узлы будут иметь 1 выборку с большой глубиной (в случае больших признаков в наборе данных), что может привести к перегрузке. - подгонка в значительной степени и, следовательно, снижает точность модели и в то же время увеличивает сложность модели.

Преимущества дерева решений:

  • Деревья решений легко интерпретировать.
  • Для построения дерева решений от пользователя требуется меньше подготовки данных, поскольку нет необходимости нормализовать или масштабировать данные.

Недостатки дерева решений:

  • Как правило, дерево решений имеет тенденцию к чрезмерному подбору данных, что приводит к увеличению сложности модели, а также к увеличению дисперсии в модели.
  • Дерево решений также называют жадным алгоритмом, поскольку небольшое изменение в наборе данных может оказать большое влияние на общую модель.

Тем не менее, дерево решений — это базовая модель, которая всегда полезна для всех специалистов по машинному обучению, поскольку она также помогает визуализировать распределение набора данных и все показывает лучшие функции в нашем наборе данных.