Количество соседей в классификаторе случайных подпространств KNN

Я построил модель классификатора, используя KNN в качестве обучающих элементов для ансамбля на основе метода случайного подпространства.

У меня есть три предиктора, размерность которых составляет 541 отсчет, и я разрабатываю процедуру оптимизации, чтобы найти наилучшее k (количество соседей). Я выбрал k, которые максимизируют AUC классификатора, производительность которого вычисляется с 10-кратной перекрестной проверкой. Результат для лучшего k составил 269 для каждого слабого ученика (то есть 60 в результате аналогичной оптимизации).

Теперь мой вопрос: 269 соседей — это слишком много? Я доверяю результатам оптимизации, но никогда не использовал столько соседей и беспокоюсь о переобучении.

Заранее спасибо, депутат


person marta    schedule 13.02.2019    source источник


Ответы (1)


Выбор значения k в k-NN скорее зависит от данных. Мы можем спорить о более общих характеристиках меньшего или большего выбора k-значений, но определить определенное число как хорошее/плохое не очень точно. По этой причине, если ваша реализация CV верна, вы можете доверять результатам и двигаться дальше, потому что CV даст оптимальное значение для вашего конкретного случая. Для более общего обсуждения мы можем сказать следующее о выборе k-value:

1- Меньший выбор значения k. Небольшой выбор значений k может повысить общую точность и снизить затраты на реализацию, но сделает систему менее устойчивой к зашумленным входным данным.

2- Большой выбор k-значения: больший выбор k-значений сделает систему более устойчивой к зашумленным входным данным, но будет более дорогостоящим в исполнении и будет иметь более слабые границы принятия решений по сравнению с меньшими k-значениями. .

Вы всегда можете сравнить эти общие характеристики при выборе значения k в своем приложении. Однако для выбора оптимальных значений с помощью алгоритма типа CV вы получите определенный ответ.

person Koralp Catalsakal    schedule 13.02.2019
comment
Отличное объяснение! Большое спасибо! Могу ли я попросить вас о некоторых ссылках на эту связь между количеством соседей и силой границ принятия решений? - person marta; 14.02.2019
comment
Вы можете ознакомиться с этой статьей: scialert.net/abstract/?doi=jas .2014.171.176 Это кратко объяснено там. Авторы также высказывают разные точки зрения о влиянии параметров k-NN на точность - person Koralp Catalsakal; 14.02.2019
comment
Еще раз спасибо за вашу помощь! С наилучшими пожеланиями - person marta; 14.02.2019