Я знаю, что больше всего алгоритмы машинного обучения основывались на предположении, что входные данные - это IID (независимо идентичное распределение). Поэтому мы обычно не проводим статистический тест для сравнения статистики тестовых и обучающих данных.
На практике, строго говоря, мы не можем гарантировать, что разделенные данные распределены одинаково. Если не проверять распределение двух наборов данных, происходит сдвиг концепции (или сдвиг данных). Итак, наша модель не может работать точно. однако в большинстве публикаций на веб-сайтах и в учебниках это не рассматривается.
есть ли необходимость проверить IID и выполнить статистическое сравнение после разделения данных обучения и тестирования? например двухвыборочный тест для сравнения среднего набора обучающих данных и тестового набора данных