Позвольте мне начать с того, что я прочитал много сообщений о перекрестной проверке, и, похоже, там много путаницы. Насколько я понимаю, это просто так:
- Выполните k-кратную перекрестную проверку, т.е. 10-кратную перекрестную проверку, чтобы понять среднюю ошибку для 10-кратной проверки.
- Если возможно, обучите модель на полном наборе данных.
Я пытаюсь построить дерево решений, используя rpart
в R и используя пакет caret
. Ниже приведен код, который я использую.
# load libraries
library(caret)
library(rpart)
# define training control
train_control<- trainControl(method="cv", number=10)
# train the model
model<- train(resp~., data=mydat, trControl=train_control, method="rpart")
# make predictions
predictions<- predict(model,mydat)
# append predictions
mydat<- cbind(mydat,predictions)
# summarize results
confusionMatrix<- confusionMatrix(mydat$predictions,mydat$resp)
У меня есть один вопрос по приложению "поезд каретки". Я прочитал раздел поезда Краткое введение в пакет каретки который гласит, что во время процесса передискретизации определяется «оптимальный набор параметров».
В моем примере я правильно его закодировал? Нужно ли мне определять rpart
параметры в моем коде или моего кода достаточно?