文章/答案/技术大牛

发布

问Python中的代理划分
EN

Data Science用户

提问于 2023-02-13 13:39:03

回答 1查看 50关注 0票数 2

我想使用Sklearn的RandomForestClassifier来预测分类变量(信用风险)。但其中一个预测因素似乎缺少价值：

Saving accounts
little        603
NaN           183
moderate      103
quite rich     63
rich           48

这一预测指标似乎是预测信用风险的最有力指标，但几乎有20%的数据缺失。谓词是自然排序的，所以我不想创建'NaN‘类别。

一些决策树允许使用代理变量来处理这些缺失的值，但是Sklearn的树/林没有这个特性。所以问题是--是否有一个类似Sklearn的Python库(理想情况下是Sklearn的扩展)，允许使用代理分叉？

发布于 2023-02-13 13:46:43

在信用评分中，缺失的金额通常意味着0(或者帐户甚至没有打开)。这种情况可能是这样的，所以直观的合并应该很少(或者创建一个“0”类别，这相当于一个“缺失”类别)。如果您想要查看'nan'/'0‘和'little’之间是否存在差异，那么首先检查类别的平均缺省率。

主要的问题往往是目标与账户有关，没有钱(或没有账户)会导致更少的违约，打破了自然的单调性--更富=更低的风险)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118497

复制

相似问题

问Python中的代理划分EN