首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机森林“特征重要性”

随机森林“特征重要性”
EN

Stack Overflow用户
提问于 2021-02-05 15:15:20
回答 1查看 272关注 0票数 1

我目前正在研究随机森林分类器。随机森林分类器的参数之一是“准则”,它有两个选项:基尼系数或熵。基尼系数越低越好,熵值越高越好。默认情况下,gini是随机森林分类器的标准。

sklearn提供了一个名为feature_importances_的属性,我们可以在其中获取所提供的属性/特性的值。通过使用,我们可以选择一些特征,并使用"threshold and SelectFromModel“消除一些特征

我的疑问是,这些feature_importances_是根据什么计算的?假设默认标准"Gini“可用。如果我假设feature_importances_是“基尼重要性”,那么低值是首选的,但在特征重要性中,高值是首选的。

EN

回答 1

Stack Overflow用户

发布于 2021-02-05 15:39:11

features_importances_总是输出特征的重要性。如果值较大,则更重要的是特征,不要考虑基尼系数或熵标准,这并不重要。准则被用来建立模型。在训练模型后应用特征重要性,您只需“分析”并观察哪些值在训练后的模型中更相关。

此外,您将看到所有features_importances_和为1,因此重要性也被视为百分比。

由于RandomForest是由几棵树形成的,因此对所有树的特征重要性进行平均。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66059092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档