本文试图建立电信行业的logistic回归模型。
一些背景:为了预测混乱,我们的数据集有关于变量的数据,如Account_Age、Current_Bill_Amount、Avg_Days_Delinquent (自未付账单以来的天数)、抱怨、Avg_Calls等等。
我的问题与投诉变量有关。投诉变量被转换成5个虚拟变量,因为有6个投诉类别,如图像所示。创建了5个虚拟列,将“定价”投诉排除在外。
现在,如图像投诉‘呼叫质量’,‘计费问题’有很高的绝对和百分比的流失和其他投诉类型没有太多的贡献。
图像可能不会显示在您的末尾,因此相同的链接如下:https://imgur.com/88zHamt https://imgur.com/8WR19C0
关于投诉对流失的影响,我有两个问题。
问题1:
该算法不认为“呼叫质量”是一个重要的变量&它的P值为0.527。考虑到81%的客户(参考图像)的“呼叫质量”投诉不断发生,该算法给出了矛盾的结果。不明白为什么会这样,打电话的质量肯定会影响到员工的流失。请分享你对此的想法。
问题2:
模型显着变量(P<0.05)的“计费问题”、“支票帐户”和“移动”的系数分别为-1.0033、-2.5675和-2.1132。常识是,当有投诉时,它应该增加流失,因此系数应该是正的。那么,为什么这三个虚拟变量算法是计算负系数?
如果您需要更多的信息或有任何澄清,请告诉我。
import statsmodels.api as sm
logReg=sm.Logit(Y_train,X_train)
logistic_regression=logReg.fit()
logistic_regression.summary()问题1和问题2的答案是预期的结果。
发布于 2019-04-29 15:10:18
问题1:
P值是系数不为空的概率,而不是特征的意义,即使它经常被解释为它。在这里,你能真正得出的结论是,不可能(很有信心地)判断系数不是空的。检查95%的置信区间为您的价值,它将是广泛的,并包括正值的系数。
例如,一个可能的解释是,这个变量与其他变量一起携带冗余信息,这可以解释为什么该算法不能说明其有用性。尝试向前或向后选择以迭代方式选择相关变量,这可能会更改您的最终选择。
问题2:
绝对不存在负系数的问题。
实际上,您使用logistic回归建模的内容是:
P(beta_i*x_i)=1/(sum(beta_i*x_i)) (以维基百科为例)
beta_i确定变量x_i的系数
你可以看到负系数降低了搅动概率。
在这里,您使用一组用户报告的抱怨(我看不到一个类别‘无抱怨’),根据您所链接的图片,搅动概率为48.5%。
因此,“默认”跳变概率为48.5%,而虚拟变量“移动”的跳变概率仅为13.7%。因此,添加用户抱怨类别“移动”的信息会降低用户的流失概率。因此,它的负系数,是相同的‘计费问题’和‘支票帐户’。
现在,如果你加了一整组用户,那么任何类型的抱怨都会增加流失概率,你会得到正系数。
https://stackoverflow.com/questions/55902599
复制相似问题