есть ли необходимость проверить IID набора данных и выполнить статистический тест на идентичность распределения после обучения и разделения тестовых данных?

Я знаю, что больше всего алгоритмы машинного обучения основывались на предположении, что входные данные - это IID (независимо идентичное распределение). Поэтому мы обычно не проводим статистический тест для сравнения статистики тестовых и обучающих данных.

На практике, строго говоря, мы не можем гарантировать, что разделенные данные распределены одинаково. Если не проверять распределение двух наборов данных, происходит сдвиг концепции (или сдвиг данных). Итак, наша модель не может работать точно. однако в большинстве публикаций на веб-сайтах и ​​в учебниках это не рассматривается.

есть ли необходимость проверить IID и выполнить статистическое сравнение после разделения данных обучения и тестирования? например двухвыборочный тест для сравнения среднего набора обучающих данных и тестового набора данных




Ответы (1)


При предположении, что ваши исходные данные (до разделения) - это IID и что они большие, вы можете доказать, что разделение, вызванное случайным разделением, также является IID, это можно интуитивно увидеть по тому факту, что если тестовые данные, которые вы получить после разделения, является iid-выборкой, взятой из исходных данных, и, таким образом, она имеет одинаковый импульс в любом порядке этих данных, и, следовательно, они имеют одинаковое распределение, тот факт, что он не зависит от процесса выборки, сам по себе , которые рисуют образец независимо. Теперь для случая, когда у вас небольшой набор данных, это уже неверно, в этом случае многие люди хорошо выполняют некоторые другие разбиения train_test, возможно, самым известным и простым является использование стратифицированного разбиения, то есть вы хорошо разделяете данные сохраняя пропорцию классов, вы можете сделать это, установив параметр stratify=True, если вы используете sklearn.model_selection.train_test_split. Конечно, этот метод не гарантирует, что распределение входных данных одинаково между поездом и тестом, но, по крайней мере, он гарантирует, что распределение меток одинаковое.

person hola    schedule 10.01.2020