Почему точность классификации падает с увеличением количества функций, используемых при использовании RFECV в scikit-learn?

Может ли кто-нибудь объяснить мне, почему точность классификации падает с увеличением функций, используемых при устранении рекурсивных функций с перекрестной проверкой в ​​Scikit-learn? Из примера, приведенного в документации Scikit-learn здесь: Рекурсивное исключение функций с перекрестной проверкой кажется, что лучшие результаты классификации получаются при использовании 7 признаков. Однако при использовании 17 функций точность падает на 25%. Как это возможно? Я ожидал, что точность будет постоянно увеличиваться с добавлением функций.


person YuriTheFury    schedule 30.03.2015    source источник


Ответы (1)


Версия документов, на которые вы ссылаетесь, СТАРА. Текущая версия примера: здесь Если удаление компонентов всегда будет снижать производительность, нет смысла делать выбор функций. Удаление функций, не связанных с целью, уменьшит переоснащение.

person Andreas Mueller    schedule 30.03.2015
comment
Спасибо за ответ! Даже в вашем примере точность падает с 0,82 до 0,73 при использовании 3 и 25 функций. Что является причиной этого? Я бы все еще ожидал, что удаление функций приведет к постоянному снижению производительности, и в этом случае все еще есть смысл выбирать функции (например, если вам нужно 3000 против 30 функций для получения точности 0,8 и 0,75 соответственно, я бы выбрал второй ). - person YuriTheFury; 31.03.2015
comment
Как я уже сказал, удаление несвязанных функций может уменьшить переоснащение и, следовательно, обеспечить лучшее обобщение. - person Andreas Mueller; 01.04.2015