Дерево решений — это один из революционных алгоритмов машинного обучения, каждому новичку необходимо ознакомиться с его принципом, и если вы ищете четкое объяснение, держитесь поблизости.
Обучение дерева решений – это тип алгоритма обучения с учителем (с предопределенной целевой переменной), который в основном используется в задачах классификации. Это ациклический граф, который можно использовать для принятия решений. В каждом узле ветвления графа исследуется определенный признак j вектора признаков. Если значение признака ниже определенного порога, то следует левая ветвь; в противном случае следует правая ветвь. По мере достижения листового узла принимается решение о классе, к которому относится пример, например, на рисунке показано дерево решений для playTennis:
Типы деревьев решений
Типы деревьев решений основаны на типе имеющейся у нас целевой переменной. Он может быть двух видов:
- Деревья решений категориальных переменных:деревья решений, которые имеют категориальную целевую переменную, называются деревьями решений категориальных переменных.
- Деревья решений с непрерывными переменными. Деревья решений имеют непрерывную целевую переменную, тогда они называются деревьями решений с непрерывными переменными.
Терминология
Корневой узел: он представляет всю совокупность или выборку, которая в дальнейшем делится на два или более однородных набора.
Разделение: это процесс разделения узла. на два или более подузла.
Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.
Конечный/конечный узел: Узлы, которые не разделяются, называются конечными или конечными узлами.
Как работают деревья решений?
В деревьях решений используется несколько алгоритмов для принятия решения о разделении узла на два или более подузлов. Создание подузлов повышает однородность результирующих подузлов. Другими словами, мы можем сказать, что чистота узла увеличивается по отношению к целевой переменной. Деревья решений разбивают узлы по всем доступным переменным, а затем выбирают разбиение, которое приводит к наиболее однородным подузлам.
Сильные и слабые стороны подхода дерева решений
Сильные стороны методов дерева решений:
- Деревья решений выполняют классификацию, не требуя большого количества вычислений.
- Деревья решений способны генерировать понятные правила.
- Деревья решений могут управлять как непрерывными, так и категориальными переменными.
Слабые стороны методов дерева решений:
- Деревья решений менее подходят для задач оценки, целью которых является прогнозирование значения непрерывного атрибута.
- Деревья решений подвержены ошибкам в задачах классификации со многими классами и относительно небольшим количеством обучающих примеров.
Реализация Python
Вы можете найти код и набор данных в моем репозитории GitHub или обновить его для своего набора данных.
Вывод:
Я надеюсь, что смог немного разъяснить вам это. Деревья решений, это один из основных алгоритмов, я буду загружать еще много объяснений алгоритмов, потому что почему бы и нет :)
Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.
Github, LinkedIn, Захра Эльхамрауи, Upwork
Использованная литература :
[1] Википедия
[2] Прогнозная аналитика
[3] Дерево решений
Примечание от команды Plain English
А вы знали, что у нас четыре публикации и канал на YouTube? Вы можете найти все это на нашей домашней странице plainenglish.io — проявите свою любовь, подписавшись на наши публикации и подписавшись на наш канал YouTube!