首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Logistic回归系数不合理

Logistic回归系数不合理
EN

Stack Overflow用户
提问于 2019-04-29 11:40:22
回答 1查看 547关注 0票数 0

本文试图建立电信行业的logistic回归模型。

一些背景:为了预测混乱,我们的数据集有关于变量的数据,如Account_Age、Current_Bill_Amount、Avg_Days_Delinquent (自未付账单以来的天数)、抱怨、Avg_Calls等等。

我的问题与投诉变量有关。投诉变量被转换成5个虚拟变量,因为有6个投诉类别,如图像所示。创建了5个虚拟列,将“定价”投诉排除在外。

现在,如图像投诉‘呼叫质量’,‘计费问题’有很高的绝对和百分比的流失和其他投诉类型没有太多的贡献。

图像可能不会显示在您的末尾,因此相同的链接如下:https://imgur.com/88zHamt https://imgur.com/8WR19C0

关于投诉对流失的影响,我有两个问题。

问题1:

该算法不认为“呼叫质量”是一个重要的变量&它的P值为0.527。考虑到81%的客户(参考图像)的“呼叫质量”投诉不断发生,该算法给出了矛盾的结果。不明白为什么会这样,打电话的质量肯定会影响到员工的流失。请分享你对此的想法。

问题2:

模型显着变量(P<0.05)的“计费问题”、“支票帐户”和“移动”的系数分别为-1.0033、-2.5675和-2.1132。常识是,当有投诉时,它应该增加流失,因此系数应该是正的。那么,为什么这三个虚拟变量算法是计算负系数?

如果您需要更多的信息或有任何澄清,请告诉我。

代码语言:javascript
复制
import statsmodels.api as sm
logReg=sm.Logit(Y_train,X_train)
logistic_regression=logReg.fit() 
logistic_regression.summary()

问题1和问题2的答案是预期的结果。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-29 15:10:18

问题1:

P值是系数不为空的概率,而不是特征的意义,即使它经常被解释为它。在这里,你能真正得出的结论是,不可能(很有信心地)判断系数不是空的。检查95%的置信区间为您的价值,它将是广泛的,并包括正值的系数。

例如,一个可能的解释是,这个变量与其他变量一起携带冗余信息,这可以解释为什么该算法不能说明其有用性。尝试向前或向后选择以迭代方式选择相关变量,这可能会更改您的最终选择。

问题2:

绝对不存在负系数的问题。

实际上,您使用logistic回归建模的内容是:

P(beta_i*x_i)=1/(sum(beta_i*x_i)) (以维基百科为例)

beta_i确定变量x_i的系数

你可以看到负系数降低了搅动概率。

在这里,您使用一组用户报告的抱怨(我看不到一个类别‘无抱怨’),根据您所链接的图片,搅动概率为48.5%。

因此,“默认”跳变概率为48.5%,而虚拟变量“移动”的跳变概率仅为13.7%。因此,添加用户抱怨类别“移动”的信息会降低用户的流失概率。因此,它的负系数,是相同的‘计费问题’和‘支票帐户’。

现在,如果你加了一整组用户,那么任何类型的抱怨都会增加流失概率,你会得到正系数。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55902599

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档