我正在研究一个信用风险二元分类问题。这些类是GoodPayers和BadPayers。该培训集具有以下变量/特性:
10倍交叉验证在此集上有0.82个AUC。
然而,这些看不见的数据只是包含了“人口统计数据”,并没有支付行为数据。如何部署/测试仅基于DemoGraphics数据集的模型?
发布于 2017-12-24 18:06:11
如果缺少的行为数据不足20-25%,也许可以尝试使用以下解决方案之一来估算丢失的数据:
如果您有超过20%-25%的数据丢失,这将是真的很难计算值。在这种情况下,我认为您应该考虑创建一个新的模型,例如:
如果你不能创建一个新的模型,既不能归咎于丢失的数据,我猜热甲板将是最好的选择,你必须避免不良的性能对无形的数据。
https://datascience.stackexchange.com/questions/25916
复制相似问题