Дерево решений — это один из революционных алгоритмов машинного обучения, каждому новичку необходимо ознакомиться с его принципом, и если вы ищете четкое объяснение, держитесь поблизости.

Обучение дерева решений – это тип алгоритма обучения с учителем (с предопределенной целевой переменной), который в основном используется в задачах классификации. Это ациклический граф, который можно использовать для принятия решений. В каждом узле ветвления графа исследуется определенный признак j вектора признаков. Если значение признака ниже определенного порога, то следует левая ветвь; в противном случае следует правая ветвь. По мере достижения листового узла принимается решение о классе, к которому относится пример, например, на рисунке показано дерево решений для playTennis:

Типы деревьев решений

Типы деревьев решений основаны на типе имеющейся у нас целевой переменной. Он может быть двух видов:

  1. Деревья решений категориальных переменных:деревья решений, которые имеют категориальную целевую переменную, называются деревьями решений категориальных переменных.
  2. Деревья решений с непрерывными переменными. Деревья решений имеют непрерывную целевую переменную, тогда они называются деревьями решений с непрерывными переменными.

Терминология

Корневой узел: он представляет всю совокупность или выборку, которая в дальнейшем делится на два или более однородных набора.
Разделение: это процесс разделения узла. на два или более подузла.
Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.
Конечный/конечный узел: Узлы, которые не разделяются, называются конечными или конечными узлами.

Как работают деревья решений?

В деревьях решений используется несколько алгоритмов для принятия решения о разделении узла на два или более подузлов. Создание подузлов повышает однородность результирующих подузлов. Другими словами, мы можем сказать, что чистота узла увеличивается по отношению к целевой переменной. Деревья решений разбивают узлы по всем доступным переменным, а затем выбирают разбиение, которое приводит к наиболее однородным подузлам.

Сильные и слабые стороны подхода дерева решений

Сильные стороны методов дерева решений:

  • Деревья решений выполняют классификацию, не требуя большого количества вычислений.
  • Деревья решений способны генерировать понятные правила.
  • Деревья решений могут управлять как непрерывными, так и категориальными переменными.

Слабые стороны методов дерева решений:

  • Деревья решений менее подходят для задач оценки, целью которых является прогнозирование значения непрерывного атрибута.
  • Деревья решений подвержены ошибкам в задачах классификации со многими классами и относительно небольшим количеством обучающих примеров.

Реализация Python

Вы можете найти код и набор данных в моем репозитории GitHub или обновить его для своего набора данных.

Вывод:

Я надеюсь, что смог немного разъяснить вам это. Деревья решений, это один из основных алгоритмов, я буду загружать еще много объяснений алгоритмов, потому что почему бы и нет :)

Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.

Github, LinkedIn, Захра Эльхамрауи, Upwork

Использованная литература :

[1] Википедия

[2] Прогнозная аналитика

[3] Дерево решений

Примечание от команды Plain English

А вы знали, что у нас четыре публикации и канал на YouTube? Вы можете найти все это на нашей домашней странице plainenglish.io — проявите свою любовь, подписавшись на наши публикации и подписавшись на наш канал YouTube!