我知道这个问题以前已经被问过了,here。但是我找不到正确的答案。前一篇文章中提供的答案建议使用Statistics.chiSqTest(data),它提供了拟合优度检验(皮尔逊卡方检验),而不是沃尔德卡方检验系数的显著性。
我试图在Spark中建立logistic回归的参数估计表。我可以得到系数和截距,但我找不到spark API来获得系数的标准误差。我看到系数标准误差在线性模型中可用,作为模型摘要的一部分。但Logistic回归模型摘要没有提供这一点。示例代码的一部分如下。
import org.apache.spark.ml.classification.{BinaryLogisticRegressionSummary, LogisticRegression}
val lr = new LogisticRegression()
.setMaxIter(10)
.setRegParam(0.3)
.setElasticNetParam(0.8)
// Fit the model
val lrModel = lr.fit(training) // Assuming training is my training dataset
val trainingSummary = lrModel.summary
val binarySummary = trainingSummary.asInstanceOf[BinaryLogisticRegressionSummary] // provides the summary information of the fitted model有没有办法计算系数的标准误差?(或者得到系数的方差-协方差矩阵,从中我们可以得到标准误差)
发布于 2018-05-24 09:54:03
您需要对Binomial+Logit而不是LogisticRegression使用GLM方法。
https://spark.apache.org/docs/2.1.1/ml-classification-regression.html#generalized-linear-regression
https://stackoverflow.com/questions/48482245
复制相似问题