2 Пример теста KS - что-то кажется неправильным

Я пытаюсь запустить тест Колмогорова-Смирнова, используя функцию ks_2samp из scipy, чтобы определить, относятся ли гистограммы данных к одному и тому же распределению. Однако возвращаемое значение p иногда кажется не совсем правильным...

Например, с помощью этой гистограммы:

Histogram.jpg

aa, bb, cc = ax1.hist(list1, numpy.arange(a-1, b+3, c), alpha = .5, align = 'mid', rwidth=1, linestyle = 'dashed', linewidth = 1.5)

dd, ee, ff = ax1.hist(list2, numpy.arange(a-1, b+3, c), alpha = .5, align = 'mid',rwidth=1)

print ks_2samp(aa, dd)`[1]`

Я получаю возвращаемое значение p около 0,96, что действительно кажется неправильным... я делаю что-то не так? Разве эти гистограммы не должны быть достаточно разными, чтобы p-значение было ниже?


person MrDinkleburg    schedule 15.07.2016    source источник
comment
то, что вы, вероятно, хотите сделать, это ks_2samp(list1, list2)   -  person cel    schedule 15.07.2016
comment
О, интересно, это именно то, что я ищу, спасибо! Теперь я получаю p-значение 1,8e-5, что имеет больше смысла. Я думал, что функция, возможно, не работала бы таким образом, так как я анализировал гистограмму ... мне это кажется неинтуитивным, но, возможно, я просто не понимаю, как функция на самом деле работает, ха-ха, еще раз спасибо   -  person MrDinkleburg    schedule 16.07.2016
comment
@cel Это должен быть ответ (на самом деле, the).   -  person Warren Weckesser    schedule 16.07.2016


Ответы (1)


ks_2samp применяет тест Колмогорова-Смирнова к двум выборкам и проверяет нулевую гипотезу о том, что обе взяты из одного и того же распределения.

Поэтому ks_2samp также принимает два образца (здесь list1 и list2) в качестве входных данных.

ks_2samp(list1, list2)
person cel    schedule 15.07.2016