Я хотел бы сравнить модели (множественная регрессия, LASSO, Ridge, GBM) по важности переменных. Но я не уверен, верна ли процедура, потому что полученные значения не в одном масштабе.
При множественной регрессии и GBM значения варьируются от 0 до 100 с использованием varImp из пакета каретки. Расчет этой статистики отличается в каждом из методов.
Линейные модели: используется абсолютное значение t-статистики для каждого параметра модели.
Усиленные деревья: этот метод использует тот же подход, что и одиночное дерево, но суммирует важность каждой итерации повышения.
В то время как для LASSO и Ridge значения составляют от 0,00 до 0,99, рассчитанные с помощью функции:
varImp <- function (object, lambda = NULL, ...) {
beta <- predict (object, s = lambda, type = "coef")
if (is.list (beta)) {
out <- do.call ("cbind", lapply (beta, function (x)
x [, 1])))
out <- as.data.frame (out)
} else
out <- data.frame (Overall = beta [, 1])
out <- abs (out [rownames (out)! = "(Intercept)",, drop = FALSE])
out
}
Что получилось здесь: Пакет Caret - важность переменной glmnet
Руководствовался другими вопросами на форуме, но так и не смог понять, почему есть разница шкал. Как я могу сопоставить эти измерения?