是否需要对python中的随机森林分类器进行一次热编码?我想从逻辑上理解,随机林中是否可以用标签编码来处理分类特性,而不是单热编码。
发布于 2021-01-14 17:19:18
在机器学习中,编码的概念是必要的,因为在它的帮助下,我们可以将非数字特征转换成任何模型都可以理解的数字特征。
任何类型的编码都可以在任何非数字特性上进行,这完全取决于直觉.
现在,来问一下何时使用标签编码以及何时使用一次热编码:
注意:在一次热编码中,你的特征数量会增加,这对任何基于树的算法都不好,比如决策树、随机森林等等。这就是为什么标签编码在这种情况下是首选的,但是如果使用一种热编码,则可以在sklearn中使用feature_importances_超参数来检查分类特征的重要性。如果这个特性的重要性很低,你可以放弃它。
发布于 2021-01-14 17:12:15
随机森林是基于决策树的原理,对一种热编码敏感的。现在,敏感的方法,例如,如果我们将一个热点诱导到一个决策树,分裂会导致稀疏的决策树。树通常倾向于一个方向生长,因为在一个范畴变量的每一个分裂中,只有两个值(0或1)。树在虚拟变量中以零的方向生长。

现在,您一定在想,如果不进行一次热编码,您将如何处理分类值?为此,您可以进一步参考这个散列技巧,也可以查看h2o随机林。
https://stackoverflow.com/questions/65722374
复制相似问题