Оценка плотности K ближайших соседей с использованием того же набора данных, k = 5

речь идет о непараметрической оценке плотности.

Итак, у нас есть 2 разных данных 220 значений «хороших данных» и 30 значений «неверных данных», мы должны использовать оценку плотности k-ближайших соседей для оценки p (x | c = «хорошие данные»)

В случае k=5 имеем p(x |c=хорошо) =(5/220)*(1/V).

Если я правильно понял, по k-ближайшему соседу мы должны определить V и затем получить p(x |c=хорошо). Если мы должны найти V для 5 баллов, то мы можем решить p(x|c=хорошо)

У меня проблема, как построить и вычислить эту вероятность. Есть картинка из книги http://content.foto.mail.ru/mail/zurix/_mypagephoto/h-67.jpg Что означает синяя кривая на графике оценки плотности ближайшего соседа K (см. вложение)? Может ли эта кривая показать границы разных V? Если да, то где именно граница между классами, каждый класс состоит из 5 точек???

Заранее спасибо!!


person toshkaexe    schedule 01.06.2013    source источник
comment
модераторы, я думаю, что это хороший кандидат для перемещения на stats.stackexchange.com   -  person Andre Holzner    schedule 03.06.2013


Ответы (1)


трудно догадаться, что означают две кривые, без какой-либо дополнительной информации, такой как подпись к рисунку или название книги.

Мое лучшее предположение состоит в том, что зеленая кривая - это истинная (одномерная) плотность, из которой была взята выборка точек данных. Синие кривые, по-видимому, представляют собой результирующую функцию оценки плотности для трех различных значений k.

Это должно проиллюстрировать важность правильного выбора k, для k = 1 это приводит к переобучению данных (высокая дисперсия результирующей функции оценки плотности), для k = 30 это «переглаживает» данные (высокое смещение результирующей функции оценки плотности). ), так как он не воспроизводит выпуклость около 0,3 .

На самом деле, глядя на пример k=1, мне кажется, что здесь не используется чистая 1/V, а скорее некоторая весовая функция. Для чистой оценки 1/V на точку я бы ожидал кусочно-постоянную функцию (только части горизонтальных линий).

person Andre Holzner    schedule 03.06.2013