Раскройте секрет случайности в случайных лесах

Случайный лес - это метод алгоритма машинного обучения, который работает путем построения нескольких деревьев решений в процессе обучения.

Сценарии использования случайных лесов: -

Выявление мошенничества и постоянных клиентов в банках.
Помогает в прогнозировании заболеваний путем анализа медицинских отчетов пациентов.
Прогноз цен на акции.

Как работает алгоритм случайного леса? →

Как уже упоминалось, случайный лес - это набор деревьев решений, сначала, когда мы получим набор данных, мы разделим набор данных на n равных частей . Эти n равных частей известны как n-оценки для алгоритма случайного леса.

Теперь мы начнем строить деревья решений для каждого поднабора данных основного набора данных. Таким образом, при построении деревьев решений мы должны знать, что на 1-й метке все атрибуты или функции набора данных будут в корневой метке. Итак, оттуда у нас есть выбор выбрать лучший атрибут из всех атрибутов набора данных. Для этого у нас есть два конкретных алгоритма → один - это получение информации, а другой - индекс Джини. Мы будем использовать здесь метод индекса Джини, чтобы выбрать лучший атрибут из всех атрибутов для принятия решений в дереве решений.

Итак, давайте возьмем этот набор данных для понимания случайных лесов.

Итак, формула для расчета индекса Джини: →

где,

p () относится к вероятности,
i относится к различным группам, представленным в столбце функций.
t относится к общему количеству элементы, присутствующие в столбце функций

Индекс Джини → Индекс Джини - это процесс выбора лучшего атрибута среди других атрибутов, присутствующих в наборе данных, с помощью которого мы можем генерировать дополнительные поддеревья. Он измеряет примесь или неравенство атрибутов столбцов для всего набора данных. Конкретная группа с наименьшей примесью будет выбрана для представления значения индекса Джини для этого столбца характеристик. 0 - это наихудший случай, и в идеале мы хотим, чтобы он был равен 1. Итак, мы выберем наивысшее значение джини среди атрибутов для генерации поддеревьев.

Итак, после получения набора данных мы должны разделить наш набор данных на n равных частей. И f или каждую часть мы построим дерево решений. Поскольку мы взяли здесь небольшой набор данных, мы построим 3 различных типа деревьев решений для нашего набора данных.

Итак, для построения нашего первого дерева решений мы начнем с вычисления индекса Джини зависимой переменной в наборе данных, который является «LABEL». Таким образом, индекс Джини столбца LABEL равен 1- (2/6) ²- (2/6) ²- (2/6) ² = 0,66, так как в нашем наборе данных 2 ЛИМОНА, 2 ЯБЛОКА и 2 ВИНОГРАДА из 6 ЯБЛОК . Теперь мы начнем рассчитывать лучший индекс Джини для каждого столбца. Для этого мы должны разделить элементы каждого столбца на группу по два. Таким образом, для столбца «ЦВЕТ» возможные подмножества могут быть 2³ = 8. Поскольку индекс Джини использует расчет двоичного разбиения для каждого атрибута и 3, потому что столбец ЦВЕТ имеет только 3 различных атрибута: КРАСНЫЙ, ПУРПУРНЫЙ, ЖЕЛТЫЙ. Итак, из всех 8 возможных подразбиений двоичные подразбиения возможны: → {(КРАСНЫЙ, ФИОЛЕТОВЫЙ), ЖЕЛТЫЙ}, {(ФИОЛЕТОВЫЙ, ЖЕЛТЫЙ), КРАСНЫЙ}, {(КРАСНЫЙ , ЖЕЛТЫЙ), ФИОЛЕТОВЫЙ}. Теперь нам нужно рассчитать индекс Джини для каждого двоичного подразделения с помощью формулы:

где, если мы сначала возьмем разделенный {(КРАСНЫЙ, ПУРПУРНЫЙ), ЖЕЛТЫЙ},

тогда D1 обозначает (КРАСНЫЙ, ПУРПУРНЫЙ), D2 обозначает ЖЕЛТЫЙ, а D обозначает номер. обучающих примеров

Следовательно, индекс Джини для {(КРАСНЫЙ, ПУРПУРНЫЙ), ЖЕЛТЫЙ} равен (4/6) * (1- (2/4) ²- (2/4) ²) + (2/6) * (1– (2 / 2) ²) = 1/3, для расчета посмотрите это видео: Подробный расчет индекса Джини

После расчета индекса Джини трех классов ({(КРАСНЫЙ, ФИОЛЕТОВЫЙ), ЖЕЛТЫЙ}, {(ФИОЛЕТОВЫЙ, ЖЕЛТЫЙ), КРАСНЫЙ}, {(КРАСНЫЙ, ЖЕЛТЫЙ), ФИОЛЕТОВЫЙ}) выберите класс с наименьшим значением индекса Джини среди трех . Аналогичным образом вычислите наименьший индекс Джини для других функций набора данных, используя двоичное разбиение. Наконец, среди функций функция, имеющая наивысшее значение индекса Джини, будет выбрана в качестве корневого узла для целей классификации.

Одновременно на следующих этапах мы продолжим повторять те же шаги для расчета индекса Джини для следующего лучшего признака после классификации и построения следующего узла дерева решений, оставляя ранее использованные признаки для классификации.

Итак, мы получим наше первое дерево решений как:

И когда мы повторяем те же шаги, другие 2 части / типа деревьев решений, которые будут сформированы из частей нашего набора данных:

Теперь, если мы хотим классифицировать новый фрукт с помощью категории ЯБЛОКО, ЛИМОН или ВИНОГРАД (ПРИМЕЧАНИЕ: ЛИМОН представлен оранжевым цветом, а ВИНОГРАД - вишней на изображениях) , затем мы переберем его спецификации по трем различным деревьям, чтобы получить наш ответ, и класс, который получит максимальный вес, будет ответом на этот новый тестовый объект.

Поскольку Orange получил максимальное количество голосов из предсказанных ответов деревьев решений. Итак, правильный прогноз для тестового объекта - ЛИМОННЫЙ или оранжевый.

Вот как алгоритм случайного леса работает с множеством деревьев решений. Надеюсь, вам понравилось читать этот блог. Если у вас есть какие-либо комментарии, запросы или вопросы, дайте мне знать в разделе комментариев. А пока наслаждайтесь обучением.

Раскройте секрет случайности в случайных лесах

Сценарии использования случайных лесов: -

Как работает алгоритм случайного леса? →

Похожие вопросы