文章/答案/技术大牛

发布

社区首页 >问答首页 >多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释

问多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释
EN

Stack Overflow用户

提问于 2018-06-10 14:41:54

回答 1查看 900关注 0票数 1

谁能解释一下如何解释coefficientMatrix，interceptVector，Confusion matrix

一个multinomial logistic regression。

根据火花文件：

多类分类是支持多项logistic (softmax)回归。在多项式logistic回归中，算法生成K组系数，或维数K×J的矩阵，其中K是结果类数，J是特征数。如果该算法与一个截距项相适应，则可以得到截取的长度K向量。

我使用Sparkml2.3.0转换了一个例子，得到了这个结果。

。

如果我分析我得到了什么：

coefficientMatrix具有5 * 11的维数

interceptVector具有5的维数

如果是这样的话，为什么the Confusion matrix有4 * 4的维度？

另外，有人能给出coefficientMatrix，interceptVector的解释吗？

为什么我会得到负系数？

如果5是分类后的类数，为什么我在the confusion matrix中得到4行？

编辑

我忘记提到我仍然是机器学习的初学者，我在google上的搜索没有帮助，所以我可能得到了一张向上的选票:)

logistic-regression

apache-spark-ml

confusion-matrix

apache-spark

classification

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-10 19:34:24

关于4x4混淆矩阵:我设想，当您将数据分成测试和训练时，您的培训集中有5个类，而测试集中只有4个类。如果响应变量的分布不平衡，这很容易发生。

在建模之前，您会想尝试在测试和培训之间执行一些分层的分割。如果您正在使用pyspark，您可能会发现这个库很有用：https://github.com/databricks/spark-sklearn

现在关于多类Logistic回归的负系数:正如您提到的，返回的coefficientMatrix形状为5x11。火花产生了五种模型通过一个-vs-所有的方法。第一个模型对应于一个模型，其中正类是第一个标签，负类是由所有其他标签组成的。假设这个模型的第一个系数是-2.23。为了解释这个系数，我们取指数为-2.23，即(约) 0.10。在这里解释：“随着第一个特征单位的增加，我们期望正面标签的概率降低90%。”

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50784833

复制

相似问题

问多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多项式logistic回归中coefficientMatrix、interceptVector和混淆矩阵的解释
EN