文章/答案/技术大牛

发布

社区首页 >问答首页 >拟完全分离问题

问拟完全分离问题
EN

Data Science用户

提问于 2022-12-14 16:30:58

回答 1查看 26关注 0票数 0

关于logistic回归算法中的拟完全分离问题，我提出了一些问题。

因此，我运行这个模型来预测信用风险，结果显示它给了我很好的预测得分(AUC在95%左右)，而且auc列车和测试之间的差距并不大。但结果表明，它存在拟完全分离问题。那么，这是一个问题，并使我的模型偏见/不稳定？

我还试图建立其他模型，并通过删除某些特征来处理拟完全分离问题，它给了我76%的AUC分数，但不再是完全的准分离问题。那么我应该选择哪种型号呢？

machine-learning

python

classification

logistic-regression

binary-classification

回答 1

Data Science用户

发布于 2022-12-14 22:02:48

请参阅如何处理物流回归中的完全分离？

完美分离告诉你，有一个预测变量的组合，完美地预测某人是否会拖欠他们的贷款。例如，收入少于X，月支出超过Y，拥有Z可以很好地预测某人会违约，反之亦然。这通常意味着你的分类模型有问题，因为富裕的人总是因为人为的错误而拖欠贷款，而经济上没有安全感的人仍然可以按时支付利息。

以下是我的经验中的一些建议：

你是如何定义信用风险的？

这听起来很明显，但是你的定义是基于你从预测变量中计算出来的定量分数吗？如果是，请尝试调整权重和/或阈值。此外，你是预测个人或公司的信用风险吗？使用已知与信用风险密切相关并经学术研究验证的预测变量，可以帮助您建立一个更经验性更可靠的模型。

你有多元线性变量吗？

多重共线性是指预测变量之间的强相关关系。我看到一对变量的R^2大于0.99。这往往会扭曲你的系数和输出，因为它们有效地测量了相同的结构。我不认为对于应该删除哪个变量有太多的共识，因为这是一个定性的决定，所以您可以选择更可解释的变量，或者由过去的模型更好地支持的变量。

你的变量标准化了吗？

对数值变量使用标准定标器。我曾经研究过一些模型，这些模型使用了一家公司的股票市值(可能高达数十亿美元)，以及公司净利润与手头总资产之间的比率(这一比率往往在0到5之间)。在这种情况下，标准化可以确保预测变量的分布保持不变，同时确保变量之间的可能值范围相对恒定。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/117051

复制

相似问题

问拟完全分离问题
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拟完全分离问题EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问拟完全分离问题
EN