Расчет стандартной ошибки коэффициентов логистической регрессии в Spark

Я знаю, что этот вопрос задавался ранее здесь. Но я не мог найти правильный ответ. Ответ, представленный в предыдущем посте, предполагает использование Statistics.chiSqTest(data), который обеспечивает критерий согласия (критерии хи-квадрат Пирсона), а не критерии хи-квадрат Уолда для определения значимости коэффициентов.

Я пытался построить таблицу оценки параметров для логистической регрессии в Spark. Мне удалось получить коэффициенты и перехваты, но я не смог найти API-интерфейс Spark, чтобы получить стандартную ошибку для коэффициентов. Я вижу, что стандартные ошибки коэффициентов доступны в линейной модели как часть сводки модели. Но сводка модели логистической регрессии этого не дает. Часть примера кода выглядит следующим образом.

import org.apache.spark.ml.classification.{BinaryLogisticRegressionSummary, LogisticRegression}

val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.3)
  .setElasticNetParam(0.8)

// Fit the model
val lrModel = lr.fit(training) // Assuming training is my training dataset

val trainingSummary = lrModel.summary
val binarySummary = trainingSummary.asInstanceOf[BinaryLogisticRegressionSummary] // provides the summary information of the fitted model

Есть ли способ вычисления стандартной ошибки для коэффициентов. (или получение ковариационной матрицы для коэффициентов, из которой мы можем получить стандартную ошибку)


person user2129946    schedule 28.01.2018    source источник


Ответы (1)


Вам нужно использовать метод GLM с Binomial + Logit вместо LogisticRegression.

https://spark.apache.org/docs/2.1.1/ml-classification-regression.html#generalized-linear-regression

person Jeremy    schedule 24.05.2018