关于logistic回归算法中的拟完全分离问题,我提出了一些问题。
因此,我运行这个模型来预测信用风险,结果显示它给了我很好的预测得分(AUC在95%左右),而且auc列车和测试之间的差距并不大。但结果表明,它存在拟完全分离问题。那么,这是一个问题,并使我的模型偏见/不稳定?
我还试图建立其他模型,并通过删除某些特征来处理拟完全分离问题,它给了我76%的AUC分数,但不再是完全的准分离问题。那么我应该选择哪种型号呢?
发布于 2022-12-14 22:02:48
完美分离告诉你,有一个预测变量的组合,完美地预测某人是否会拖欠他们的贷款。例如,收入少于X,月支出超过Y,拥有Z可以很好地预测某人会违约,反之亦然。这通常意味着你的分类模型有问题,因为富裕的人总是因为人为的错误而拖欠贷款,而经济上没有安全感的人仍然可以按时支付利息。
以下是我的经验中的一些建议:
这听起来很明显,但是你的定义是基于你从预测变量中计算出来的定量分数吗?如果是,请尝试调整权重和/或阈值。此外,你是预测个人或公司的信用风险吗?使用已知与信用风险密切相关并经学术研究验证的预测变量,可以帮助您建立一个更经验性更可靠的模型。
多重共线性是指预测变量之间的强相关关系。我看到一对变量的R^2大于0.99。这往往会扭曲你的系数和输出,因为它们有效地测量了相同的结构。我不认为对于应该删除哪个变量有太多的共识,因为这是一个定性的决定,所以您可以选择更可解释的变量,或者由过去的模型更好地支持的变量。
对数值变量使用标准定标器。我曾经研究过一些模型,这些模型使用了一家公司的股票市值(可能高达数十亿美元),以及公司净利润与手头总资产之间的比率(这一比率往往在0到5之间)。在这种情况下,标准化可以确保预测变量的分布保持不变,同时确保变量之间的可能值范围相对恒定。
https://datascience.stackexchange.com/questions/117051
复制相似问题