Я применяю логистическую регрессию для создания модели прогнозирования банкротства в R. Мои данные состоят из финансовых коэффициентов многих компаний, которые я классифицировал как «плохие», имеющие значение 0, и «хорошие», имеющие значение 1.
Однако некоторые переменные-предикторы оказались идеально разделенными, что привело к следующему предупреждающему сообщению:
Warning message:
glm.fit: fitted probabilities numerically 0 or 1 occurred
Чтобы решить эту проблему, я использовал форму штрафной регрессии, а именно пакет brglm
в R.
В результате была получена модель с пятью предикторными переменными (обозначенными как X1–X5):
final_brglm <- brglm(Good1_Bad0 ~ X1 + X2 + X3 + X4 + X5, data = train_data)
Модель имеет очень высокую точность и основана на следующем принципе:
Для оценки "Y" (с коэффициентами B1 - B5)
Y <- intercept + B1*X2 + B2*X2 + B3*X3 + B4*X4 + B5*X5
и прогнозируемая вероятность "пред"
pred <- (exp(Y)/(1+exp(Y))
При Y > 0 компания «хорошая», а при Y ‹ 1 компания «плохая».
Однако результирующие вероятности предсказания либо очень близки к 1, либо очень близки к 0; Y либо очень большой (maxY = 13389261), либо очень маленький (minY = -4719827). Между ними немногое, что затрудняет построение оценки на основе модели для прогнозирования вероятности дефолта/банкротства.
На это также указывает график: вероятностный прогноз — показатель Y
Я относительно новичок в R, и я не знаю, что с этим делать. Значит ли это, что проблема разделения еще не решена? Я также читал кое-что о нормализации переменных, чего я не делал, поскольку все предикторы являются финансовыми коэффициентами (продажи FE / активы).
pred <- (exp(Y)/(1+exp(Y))
, это приведет вас к одной из двух крайних точек. - person smci   schedule 17.01.2018logistf
) - person user20650   schedule 17.01.2018if
любая из этих идеально предсказывающих переменных показывает банкротство,then
предсказывает банкротство) и использовать логистическую регрессию для всего, что осталось. Вы также можете рассмотреть древовидную модель, такую как случайный лес, которая будет эффективно использовать эту информацию. - person Gregor Thomas   schedule 17.01.2018