Почему точность классификации падает с увеличением количества функций, используемых при использовании RFECV в scikit-learn?

Может ли кто-нибудь объяснить мне, почему точность классификации падает с увеличением функций, используемых при устранении рекурсивных функций с перекрестной проверкой в Scikit-learn? Из примера, приведенного в документации Scikit-learn здесь: Рекурсивное исключение функций с перекрестной проверкой кажется, что лучшие результаты классификации получаются при использовании 7 признаков. Однако при использовании 17 функций точность падает на 25%. Как это возможно? Я ожидал, что точность будет постоянно увеличиваться с добавлением функций.

YuriTheFury 30.03.2015 источник

Ответы (1)

arrow_upward
1
arrow_downward

Версия документов, на которые вы ссылаетесь, СТАРА. Текущая версия примера: здесь Если удаление компонентов всегда будет снижать производительность, нет смысла делать выбор функций. Удаление функций, не связанных с целью, уменьшит переоснащение.

Andreas Mueller 30.03.2015

comment

Спасибо за ответ! Даже в вашем примере точность падает с 0,82 до 0,73 при использовании 3 и 25 функций. Что является причиной этого? Я бы все еще ожидал, что удаление функций приведет к постоянному снижению производительности, и в этом случае все еще есть смысл выбирать функции (например, если вам нужно 3000 против 30 функций для получения точности 0,8 и 0,75 соответственно, я бы выбрал второй ). - YuriTheFury; 31.03.2015

comment

Как я уже сказал, удаление несвязанных функций может уменьшить переоснащение и, следовательно, обеспечить лучшее обобщение. - Andreas Mueller; 01.04.2015

Почему точность классификации падает с увеличением количества функций, используемых при использовании RFECV в scikit-learn?

Ответы (1)

Похожие вопросы