文章/答案/技术大牛

发布

社区首页 >问答首页 >Logistic回归系数不合理

问Logistic回归系数不合理
EN

Stack Overflow用户

提问于 2019-04-29 11:40:22

回答 1查看 547关注 0票数 0

本文试图建立电信行业的logistic回归模型。

一些背景:为了预测混乱，我们的数据集有关于变量的数据，如Account_Age、Current_Bill_Amount、Avg_Days_Delinquent (自未付账单以来的天数)、抱怨、Avg_Calls等等。

我的问题与投诉变量有关。投诉变量被转换成5个虚拟变量，因为有6个投诉类别，如图像所示。创建了5个虚拟列，将“定价”投诉排除在外。

现在，如图像投诉‘呼叫质量’，‘计费问题’有很高的绝对和百分比的流失和其他投诉类型没有太多的贡献。

图像可能不会显示在您的末尾，因此相同的链接如下：https://imgur.com/88zHamt https://imgur.com/8WR19C0

关于投诉对流失的影响，我有两个问题。

问题1：

该算法不认为“呼叫质量”是一个重要的变量&它的P值为0.527。考虑到81%的客户(参考图像)的“呼叫质量”投诉不断发生，该算法给出了矛盾的结果。不明白为什么会这样，打电话的质量肯定会影响到员工的流失。请分享你对此的想法。

问题2：

模型显着变量(P<0.05)的“计费问题”、“支票帐户”和“移动”的系数分别为-1.0033、-2.5675和-2.1132。常识是，当有投诉时，它应该增加流失，因此系数应该是正的。那么，为什么这三个虚拟变量算法是计算负系数？

如果您需要更多的信息或有任何澄清，请告诉我。

import statsmodels.api as sm
logReg=sm.Logit(Y_train,X_train)
logistic_regression=logReg.fit() 
logistic_regression.summary()

问题1和问题2的答案是预期的结果。

python-3.x

machine-learning

scikit-learn

logistic-regression

categorical-data

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-29 15:10:18

问题1:

P值是系数不为空的概率，而不是特征的意义，即使它经常被解释为它。在这里，你能真正得出的结论是，不可能(很有信心地)判断系数不是空的。检查95%的置信区间为您的价值，它将是广泛的，并包括正值的系数。

例如，一个可能的解释是，这个变量与其他变量一起携带冗余信息，这可以解释为什么该算法不能说明其有用性。尝试向前或向后选择以迭代方式选择相关变量，这可能会更改您的最终选择。

问题2:

绝对不存在负系数的问题。

实际上，您使用logistic回归建模的内容是：

P(beta_i*x_i)=1/(sum(beta_i*x_i)) (以维基百科为例)

beta_i确定变量x_i的系数

你可以看到负系数降低了搅动概率。

在这里，您使用一组用户报告的抱怨(我看不到一个类别‘无抱怨’)，根据您所链接的图片，搅动概率为48.5%。

因此，“默认”跳变概率为48.5%，而虚拟变量“移动”的跳变概率仅为13.7%。因此，添加用户抱怨类别“移动”的信息会降低用户的流失概率。因此，它的负系数，是相同的‘计费问题’和‘支票帐户’。

现在，如果你加了一整组用户，那么任何类型的抱怨都会增加流失概率，你会得到正系数。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55902599

复制

相似问题

问Logistic回归系数不合理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Logistic回归系数不合理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Logistic回归系数不合理
EN