Расчет стандартной ошибки коэффициентов логистической регрессии в Spark

Я знаю, что этот вопрос задавался ранее здесь. Но я не мог найти правильный ответ. Ответ, представленный в предыдущем посте, предполагает использование Statistics.chiSqTest(data), который обеспечивает критерий согласия (критерии хи-квадрат Пирсона), а не критерии хи-квадрат Уолда для определения значимости коэффициентов.

Я пытался построить таблицу оценки параметров для логистической регрессии в Spark. Мне удалось получить коэффициенты и перехваты, но я не смог найти API-интерфейс Spark, чтобы получить стандартную ошибку для коэффициентов. Я вижу, что стандартные ошибки коэффициентов доступны в линейной модели как часть сводки модели. Но сводка модели логистической регрессии этого не дает. Часть примера кода выглядит следующим образом.

import org.apache.spark.ml.classification.{BinaryLogisticRegressionSummary, LogisticRegression}

val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.3)
  .setElasticNetParam(0.8)

// Fit the model
val lrModel = lr.fit(training) // Assuming training is my training dataset

val trainingSummary = lrModel.summary
val binarySummary = trainingSummary.asInstanceOf[BinaryLogisticRegressionSummary] // provides the summary information of the fitted model

Есть ли способ вычисления стандартной ошибки для коэффициентов. (или получение ковариационной матрицы для коэффициентов, из которой мы можем получить стандартную ошибку)

user2129946 28.01.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вам нужно использовать метод GLM с Binomial + Logit вместо LogisticRegression.

https://spark.apache.org/docs/2.1.1/ml-classification-regression.html#generalized-linear-regression

Jeremy 24.05.2018

Расчет стандартной ошибки коэффициентов логистической регрессии в Spark

Ответы (1)

Похожие вопросы