Я знаю, что этот вопрос задавался ранее здесь. Но я не мог найти правильный ответ. Ответ, представленный в предыдущем посте, предполагает использование Statistics.chiSqTest(data)
, который обеспечивает критерий согласия (критерии хи-квадрат Пирсона), а не критерии хи-квадрат Уолда для определения значимости коэффициентов.
Я пытался построить таблицу оценки параметров для логистической регрессии в Spark. Мне удалось получить коэффициенты и перехваты, но я не смог найти API-интерфейс Spark, чтобы получить стандартную ошибку для коэффициентов. Я вижу, что стандартные ошибки коэффициентов доступны в линейной модели как часть сводки модели. Но сводка модели логистической регрессии этого не дает. Часть примера кода выглядит следующим образом.
import org.apache.spark.ml.classification.{BinaryLogisticRegressionSummary, LogisticRegression}
val lr = new LogisticRegression()
.setMaxIter(10)
.setRegParam(0.3)
.setElasticNetParam(0.8)
// Fit the model
val lrModel = lr.fit(training) // Assuming training is my training dataset
val trainingSummary = lrModel.summary
val binarySummary = trainingSummary.asInstanceOf[BinaryLogisticRegressionSummary] // provides the summary information of the fitted model
Есть ли способ вычисления стандартной ошибки для коэффициентов. (или получение ковариационной матрицы для коэффициентов, из которой мы можем получить стандартную ошибку)