首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >缺少特征的机器学习模型的评价

缺少特征的机器学习模型的评价
EN

Data Science用户
提问于 2017-12-22 22:26:49
回答 1查看 467关注 0票数 1

我正在研究一个信用风险二元分类问题。这些类是GoodPayers和BadPayers。该培训集具有以下变量/特性:

  1. DemoGraphics数据,如年龄,教育,贷款金额,利率
  2. Month1支付、Month2支付、Month3支付、Month1支付延迟、Month2支付延迟等行为数据。

10倍交叉验证在此集上有0.82个AUC。

然而,这些看不见的数据只是包含了“人口统计数据”,并没有支付行为数据。如何部署/测试仅基于DemoGraphics数据集的模型?

EN

回答 1

Data Science用户

回答已采纳

发布于 2017-12-24 18:06:11

如果缺少的行为数据不足20-25%,也许可以尝试使用以下解决方案之一来估算丢失的数据:

  • 使用某些业务规则或训练机器学习模型,以人口学数据为输入,行为数据为输出变量,对缺失的行为数据进行估算。
  • 用特征均值/中值计算丢失的数据。
  • 通过提取特征分布(热板)中的随机值来估算丢失的数据。

如果您有超过20%-25%的数据丢失,这将是真的很难计算值。在这种情况下,我认为您应该考虑创建一个新的模型,例如:

  • 新模型不再使用行为数据。
  • 新模型基于不同的列车-val-测试分割,以便在每个数据集中拥有行为数据。

如果你不能创建一个新的模型,既不能归咎于丢失的数据,我猜热甲板将是最好的选择,你必须避免不良的性能对无形的数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/25916

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档