Я пытаюсь реализовать тест Колмогорова-Смирнова с двумя выборками из пакета Scipy, чтобы проверить, есть ли разница в распределении двух выборок. Образцы представляют собой футболки размеров (S, M, L, XL и XXL), проданные в два разных периода. Я хочу проверить, различается ли распределение размеров между двумя периодами.
Моя проблема заключается в том, что я получаю очень разные результаты, когда предварительно вычисляю проценты от общего количества для каждого размера по сравнению с использованием необработанных данных. Я не понимаю этого, поскольку проценты по-прежнему представляют одно и то же распределение.
Вот код, который я использовал (x и y — необработанные данные, x1 и y1 — рассчитанные проценты):
from scipy.stats import ks_2samp
x = (254, 526, 576, 622, 409)
y = (92, 214, 366, 365, 287)
x1 = (10.6, 21.9, 24.0, 25.9, 17.1)
y1 = (7.0, 16.2, 27.7, 27.7, 21.7)
print(ks_2samp(x, y))
print(ks_2samp(x1, y1))
И это два разных результата, которые я получаю:
Ks_2sampResult (статистика = 0,80000000000000004, pvalue = 0,03614619076928504) Ks_2sampResult (статистика = 0,400000000000000002, pvalue = 0,69740487802059081)