谁能解释一下如何解释coefficientMatrix,interceptVector,Confusion matrix
一个multinomial logistic regression。
根据火花文件:
多类分类是支持多项logistic (softmax)回归。在多项式logistic回归中,算法生成K组系数,或维数K×J的矩阵,其中K是结果类数,J是特征数。如果该算法与一个截距项相适应,则可以得到截取的长度K向量。
我使用Sparkml2.3.0转换了一个例子,得到了这个结果。

。
如果我分析我得到了什么:
coefficientMatrix具有5 * 11的维数
interceptVector具有5的维数
如果是这样的话,为什么the Confusion matrix有4 * 4的维度?
另外,有人能给出coefficientMatrix,interceptVector的解释吗?
为什么我会得到负系数?
如果5是分类后的类数,为什么我在the confusion matrix中得到4行?
编辑
我忘记提到我仍然是机器学习的初学者,我在google上的搜索没有帮助,所以我可能得到了一张向上的选票:)
发布于 2018-06-10 19:34:24
关于4x4混淆矩阵:我设想,当您将数据分成测试和训练时,您的培训集中有5个类,而测试集中只有4个类。如果响应变量的分布不平衡,这很容易发生。
在建模之前,您会想尝试在测试和培训之间执行一些分层的分割。如果您正在使用pyspark,您可能会发现这个库很有用:https://github.com/databricks/spark-sklearn
现在关于多类Logistic回归的负系数:正如您提到的,返回的coefficientMatrix形状为5x11。火花产生了五种模型通过一个-vs-所有的方法。第一个模型对应于一个模型,其中正类是第一个标签,负类是由所有其他标签组成的。假设这个模型的第一个系数是-2.23。为了解释这个系数,我们取指数为-2.23,即(约) 0.10。在这里解释:“随着第一个特征单位的增加,我们期望正面标签的概率降低90%。”
https://stackoverflow.com/questions/50784833
复制相似问题