文章/答案/技术大牛

发布

社区首页 >问答首页 >随机森林分类器中的单热编码

问随机森林分类器中的单热编码
EN

Stack Overflow用户

提问于 2021-01-14 15:57:36

回答 2查看 7.8K关注 0票数 0

是否需要对python中的随机森林分类器进行一次热编码？我想从逻辑上理解，随机林中是否可以用标签编码来处理分类特性，而不是单热编码。

machine-learning

scikit-learn

random-forest

回答 2

Stack Overflow用户

发布于 2021-01-14 17:19:18

在机器学习中，编码的概念是必要的，因为在它的帮助下，我们可以将非数字特征转换成任何模型都可以理解的数字特征。

任何类型的编码都可以在任何非数字特性上进行，这完全取决于直觉.

现在，来问一下何时使用标签编码以及何时使用一次热编码：

使用标签-编码-当您想要保留您的特性的序号时使用这个。例如，您有一个教育级别的特性，它具有字符串值，如“B学士”、“硕士”、“博士”。在本例中，您希望保留序数性质，即博士>硕士>学士，因此您将使用标签编码来映射，例如-Bbne-1、Master-2、Ph.D-3。
使用一种热编码--当您想要以相同的顺序对待您的分类变量时，请使用此方法。例如，您有颜色变量，它的值为“红色”、“黄色”、“橙色”。现在，在这种情况下，任何值都没有优先于其他值，因此这里使用一个热编码。

注意:在一次热编码中，你的特征数量会增加，这对任何基于树的算法都不好，比如决策树、随机森林等等。这就是为什么标签编码在这种情况下是首选的，但是如果使用一种热编码，则可以在sklearn中使用feature_importances_超参数来检查分类特征的重要性。如果这个特性的重要性很低，你可以放弃它。

票数 5

Stack Overflow用户

发布于 2021-01-14 17:12:15

随机森林是基于决策树的原理，对一种热编码敏感的。现在，敏感的方法，例如，如果我们将一个热点诱导到一个决策树，分裂会导致稀疏的决策树。树通常倾向于一个方向生长，因为在一个范畴变量的每一个分裂中，只有两个值(0或1)。树在虚拟变量中以零的方向生长。

现在，您一定在想，如果不进行一次热编码，您将如何处理分类值？为此，您可以进一步参考这个散列技巧，也可以查看h2o随机林。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65722374

复制

相似问题

问随机森林分类器中的单热编码
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林分类器中的单热编码EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林分类器中的单热编码
EN