首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >拟完全分离问题

拟完全分离问题
EN

Data Science用户
提问于 2022-12-14 16:30:58
回答 1查看 26关注 0票数 0

关于logistic回归算法中的拟完全分离问题,我提出了一些问题。

因此,我运行这个模型来预测信用风险,结果显示它给了我很好的预测得分(AUC在95%左右),而且auc列车和测试之间的差距并不大。但结果表明,它存在拟完全分离问题。那么,这是一个问题,并使我的模型偏见/不稳定?

我还试图建立其他模型,并通过删除某些特征来处理拟完全分离问题,它给了我76%的AUC分数,但不再是完全的准分离问题。那么我应该选择哪种型号呢?

EN

回答 1

Data Science用户

发布于 2022-12-14 22:02:48

请参阅如何处理物流回归中的完全分离?

完美分离告诉你,有一个预测变量的组合,完美地预测某人是否会拖欠他们的贷款。例如,收入少于X,月支出超过Y,拥有Z可以很好地预测某人会违约,反之亦然。这通常意味着你的分类模型有问题,因为富裕的人总是因为人为的错误而拖欠贷款,而经济上没有安全感的人仍然可以按时支付利息。

以下是我的经验中的一些建议:

  1. 你是如何定义信用风险的?

这听起来很明显,但是你的定义是基于你从预测变量中计算出来的定量分数吗?如果是,请尝试调整权重和/或阈值。此外,你是预测个人或公司的信用风险吗?使用已知与信用风险密切相关并经学术研究验证的预测变量,可以帮助您建立一个更经验性更可靠的模型。

  1. 你有多元线性变量吗?

多重共线性是指预测变量之间的强相关关系。我看到一对变量的R^2大于0.99。这往往会扭曲你的系数和输出,因为它们有效地测量了相同的结构。我不认为对于应该删除哪个变量有太多的共识,因为这是一个定性的决定,所以您可以选择更可解释的变量,或者由过去的模型更好地支持的变量。

  1. 你的变量标准化了吗?

对数值变量使用标准定标器。我曾经研究过一些模型,这些模型使用了一家公司的股票市值(可能高达数十亿美元),以及公司净利润与手头总资产之间的比率(这一比率往往在0到5之间)。在这种情况下,标准化可以确保预测变量的分布保持不变,同时确保变量之间的可能值范围相对恒定。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117051

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档