Я использовал Weka для успешного построения дерева решений J48 (C4.5). Теперь я хотел бы оценить, насколько эффективны или важны мои функции.
Один из очевидных способов - перебрать все функции, удалять по одной и каждый раз повторно запускать тесты классификации, чтобы увидеть, какая функция имеет наибольшее падение точности классификации. Однако это может скрыть взаимозависимости между функциями.
Однако я думаю о другом подходе, основанном на понимании алгоритма C4.5. Поскольку каждое разбиение в дереве основано на решении о максимальном получении информации, разбиение объекта ближе к корню дерева должно означать, что объект имеет больше информации, чем разбиение с другим признаком, расположенным ниже в дереве. Таким образом, для данной характеристики F, которая встречается в нескольких разделах дерева, я могу вычислить среднее расстояние F от корня. Затем я могу ранжировать все объекты по среднему расстоянию, при этом самое низкое среднее значение является наиболее ценным. Будет ли это правильный подход?