我想使用Sklearn的RandomForestClassifier来预测分类变量(信用风险)。但其中一个预测因素似乎缺少价值:
Saving accounts
little 603
NaN 183
moderate 103
quite rich 63
rich 48这一预测指标似乎是预测信用风险的最有力指标,但几乎有20%的数据缺失。谓词是自然排序的,所以我不想创建'NaN‘类别。
一些决策树允许使用代理变量来处理这些缺失的值,但是Sklearn的树/林没有这个特性。所以问题是--是否有一个类似Sklearn的Python库(理想情况下是Sklearn的扩展),允许使用代理分叉?
发布于 2023-02-13 13:46:43
在信用评分中,缺失的金额通常意味着0(或者帐户甚至没有打开)。这种情况可能是这样的,所以直观的合并应该很少(或者创建一个“0”类别,这相当于一个“缺失”类别)。如果您想要查看'nan'/'0‘和'little’之间是否存在差异,那么首先检查类别的平均缺省率。
主要的问题往往是目标与账户有关,没有钱(或没有账户)会导致更少的违约,打破了自然的单调性--更富=更低的风险)。
https://datascience.stackexchange.com/questions/118497
复制相似问题