首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释

多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释
EN

Stack Overflow用户
提问于 2018-06-10 14:41:54
回答 1查看 900关注 0票数 1

谁能解释一下如何解释coefficientMatrixinterceptVectorConfusion matrix

一个multinomial logistic regression

根据火花文件:

多类分类是支持多项logistic (softmax)回归。在多项式logistic回归中,算法生成K组系数,或维数K×J的矩阵,其中K是结果类数,J是特征数。如果该算法与一个截距项相适应,则可以得到截取的长度K向量。

我使用Sparkml2.3.0转换了一个例子,得到了这个结果。

如果我分析我得到了什么:

coefficientMatrix具有5 * 11的维数

interceptVector具有5的维数

如果是这样的话,为什么the Confusion matrix4 * 4的维度?

另外,有人能给出coefficientMatrixinterceptVector的解释吗?

为什么我会得到负系数?

如果5是分类后的类数,为什么我在the confusion matrix中得到4行?

编辑

我忘记提到我仍然是机器学习的初学者,我在google上的搜索没有帮助,所以我可能得到了一张向上的选票:)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-10 19:34:24

关于4x4混淆矩阵:我设想,当您将数据分成测试和训练时,您的培训集中有5个类,而测试集中只有4个类。如果响应变量的分布不平衡,这很容易发生。

在建模之前,您会想尝试在测试和培训之间执行一些分层的分割。如果您正在使用pyspark,您可能会发现这个库很有用:https://github.com/databricks/spark-sklearn

现在关于多类Logistic回归的负系数:正如您提到的,返回的coefficientMatrix形状为5x11。火花产生了五种模型通过一个-vs-所有的方法。第一个模型对应于一个模型,其中正类是第一个标签,负类是由所有其他标签组成的。假设这个模型的第一个系数是-2.23。为了解释这个系数,我们取指数为-2.23,即(约) 0.10。在这里解释:“随着第一个特征单位的增加,我们期望正面标签的概率降低90%。”

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50784833

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档