首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机森林分类器中的单热编码

随机森林分类器中的单热编码
EN

Stack Overflow用户
提问于 2021-01-14 15:57:36
回答 2查看 7.8K关注 0票数 0

是否需要对python中的随机森林分类器进行一次热编码?我想从逻辑上理解,随机林中是否可以用标签编码来处理分类特性,而不是单热编码。

EN

回答 2

Stack Overflow用户

发布于 2021-01-14 17:19:18

在机器学习中,编码的概念是必要的,因为在它的帮助下,我们可以将非数字特征转换成任何模型都可以理解的数字特征。

任何类型的编码都可以在任何非数字特性上进行,这完全取决于直觉.

现在,来问一下何时使用标签编码以及何时使用一次热编码:

  1. 使用标签-编码-当您想要保留您的特性的序号时使用这个。例如,您有一个教育级别的特性,它具有字符串值,如“B学士”、“硕士”、“博士”。在本例中,您希望保留序数性质,即博士>硕士>学士,因此您将使用标签编码来映射,例如-Bbne-1、Master-2、Ph.D-3。
  2. 使用一种热编码--当您想要以相同的顺序对待您的分类变量时,请使用此方法。例如,您有颜色变量,它的值为“红色”、“黄色”、“橙色”。现在,在这种情况下,任何值都没有优先于其他值,因此这里使用一个热编码。

注意:在一次热编码中,你的特征数量会增加,这对任何基于树的算法都不好,比如决策树、随机森林等等。这就是为什么标签编码在这种情况下是首选的,但是如果使用一种热编码,则可以在sklearn中使用feature_importances_超参数来检查分类特征的重要性。如果这个特性的重要性很低,你可以放弃它。

票数 5
EN

Stack Overflow用户

发布于 2021-01-14 17:12:15

随机森林是基于决策树的原理,对一种热编码敏感的。现在,敏感的方法,例如,如果我们将一个热点诱导到一个决策树,分裂会导致稀疏的决策树。树通常倾向于一个方向生长,因为在一个范畴变量的每一个分裂中,只有两个值(0或1)。树在虚拟变量中以零的方向生长。

现在,您一定在想,如果不进行一次热编码,您将如何处理分类值?为此,您可以进一步参考这个散列技巧,也可以查看h2o随机林

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65722374

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档