Как создать кривую обучения на основе перекрестно проверенных данных?

У меня есть алгоритм, который использует 10-кратную перекрестную проверку. В обучающем наборе я использую одну из складок для проверки обучающей модели, прежде чем использовать изученную модель на складке, отложенной для тестирования.

Я хотел бы создать кривую обучения, что означает, что мне нужно варьировать размер обучающей выборки. Означает ли это, что я также изменяю размер набора проверки вместе с данными обучения? Означает ли это, что мне нужно также изменить размер тестового набора (складку, отличную от складок обучения и проверки)?


comment
Не могли бы вы пояснить ваш первый абзац? 10-кратное резюме предполагает разделение ваших данных на 10 примерно равных частей. Тренируйтесь на 9 и тестируйте 10 числа. Кажется, вы откладываете 2 складки?   -  person IVlad    schedule 15.04.2015


Ответы (1)


10-кратная перекрестная проверка работает путем разделения обучающего набора помеченных данных на 10 подмножеств равного размера. 9 из подмножеств объединяются в новый обучающий набор, а оставшееся 1 подмножество используется для проверки / тестирования, то есть модель обучается на 90% исходной обучающей выборки и тестируется на 10%.

Это выполняется 10 раз (сгибов), итеративно по каждому из 10 подмножеств, поэтому каждое подмножество используется для тестирования. Оценка производительности тестирования выполняется на каждой итерации, и после завершения всех итераций вычисляется среднее значение.

Нет ничего, что называется «тренировочной сверткой» или «тестовой сверткой», свертка - это итерация процесса. Также нет подмножеств, отложенных во время процесса, все подмножества используются на каждой итерации.

Чтобы создать кривую обучения, о которой вы говорите, вы можете просто изменить размер исходной обучающей выборки и позволить 10-кратному процессу перекрестной проверки работать без изменений. Количество записей в исходном обучающем наборе - это ваша мера размера обучающего набора, а производительность - это заданное среднее значение по завершении перекрестной проверки.

person Snps    schedule 15.04.2015
comment
Набор проверки - это набор, в котором оптимизируются (гипер) параметры, например C для SVM; набор тестов - это набор, в котором оценивается производительность модели. Вы предлагаете оптимизировать параметры и протестировать модель на одном наборе? - person Nikita Astrakhantsev; 16.04.2015
comment
@NikitaAstrakhantsev Я думаю, вы правы в том, что правильнее говорить набор тестов, а не набор проверки, когда он используется со смыслом, который я намеревался (отредактировано). Я говорю только об использовании резюме для проверки производительности. Существуют алгоритмы, которые не нуждаются в настройке параметров, но в этом случае (как в случае с SVM и NN) вы обычно разделяете набор тестов на части для проверки и тестирования. - person Snps; 16.04.2015