Укажите складки перекрестной проверки с помощью знака вставки

Здравствуйте и заранее спасибо. Я использую caret для перекрестной проверки нейронной сети из пакета nnet. В параметре method для функции trainControl я могу указать свой тип перекрестной проверки, но все они случайным образом выбирают наблюдения для перекрестной проверки. Могу ли я в любом случае использовать курсор для перекрестной проверки конкретных наблюдений в моих данных либо по идентификатору, либо по жестко запрограммированному параметру? Например, вот мой текущий код:

library(nnet) 
library(caret) 
library(datasets) 

data(iris) 

train.control <- trainControl( 
    method = "repeatedcv" 
    , number = 4 
    , repeats = 10 
    , verboseIter = T 
    , returnData = T 
    , savePredictions = T 
    ) 

tune.grid <- expand.grid( 
    size = c(2,4,6,8)
    ,decay = 2^(-3:1) 
    ) 

nnet.train <- train( 
    x = iris[,1:4] 
    , y = iris[,5] 
    , method = "nnet" 
    , preProcess = c("center","scale")  
    , metric = "Accuracy" 
    , trControl = train.control 
    , tuneGrid = tune.grid 
    ) 
nnet.train 
plot(nnet.train)

Предположим, я хочу добавить еще один столбец CV_GROUP во фрейм данных iris, и я хочу, чтобы каретка выполняла перекрестную проверку нейронной сети по наблюдениям со значением 1 для этого столбца:

iris$CV_GROUP <- c(rep.int(0,times=nrow(iris)-20), rep.int(1,times=20))

Возможно ли это с caret?


person gtnbz2nyt    schedule 18.08.2015    source источник


Ответы (1)


Используйте параметры управления index и indexOut. Я закодировал способ реализации этого, который позволяет вам выбирать количество повторов и складок, которые вы хотите:

library(nnet)
library(caret)
library(datasets)
library(data.table)
library(e1071)

r <- 2 # number of repeats
k <- 5 # number of folds
data(iris)
iris <- data.table(iris)

# Create folds and repeats here - you could create your own if you want #
set.seed(343)
for (i in 1:r) {
    newcol <- paste('fold.num',i,sep='')
    iris <- iris[,eval(newcol):=sample(1:k, size=dim(iris)[1], replace=TRUE)]
}

folds.list.out <- list()
folds.list <- list()
list.counter <- 1
for (y in 1:r) {
    newcol <- paste('fold.num', y, sep='')
    for (z in 1:k) {
        folds.list.out[[list.counter]] <- which(iris[,newcol,with=FALSE]==z)
        folds.list[[list.counter]] <- which(iris[,newcol,with=FALSE]!=z)
        list.counter <- list.counter + 1
    }
    iris <- iris[,!newcol,with=FALSE]
}

tune.grid <- expand.grid( 
    size = c(2,4,6,8)
    ,decay = 2^(-3:1) 
    ) 

train.control <- trainControl( 
    index=folds.list
    , indexOut=folds.list.out
    , verboseIter = T 
    , returnData = T 
    , savePredictions = T 
    ) 

iris <- data.frame(iris)

nnet.train <- train( 
    x = iris[,1:4] 
    , y = iris[,5] 
    , method = "nnet" 
    , preProcess = c("center","scale")  
    , metric = "Accuracy" 
    , trControl = train.control 
    , tuneGrid = tune.grid 
    ) 

nnet.train
plot(nnet.train)
person Tchotchke    schedule 18.08.2015
comment
Извините, это заняло некоторое время, чтобы подтвердить предположение, что я отвлекся, но спасибо! Отличный ответ! - person gtnbz2nyt; 18.04.2016