问随机森林“特征重要性”
EN

Stack Overflow用户

提问于 2021-02-05 15:15:20

回答 1查看 272关注 0票数 1

我目前正在研究随机森林分类器。随机森林分类器的参数之一是“准则”，它有两个选项:基尼系数或熵。基尼系数越低越好，熵值越高越好。默认情况下，gini是随机森林分类器的标准。

sklearn提供了一个名为feature_importances_的属性，我们可以在其中获取所提供的属性/特性的值。通过使用，我们可以选择一些特征，并使用"threshold and SelectFromModel“消除一些特征

我的疑问是，这些feature_importances_是根据什么计算的？假设默认标准"Gini“可用。如果我假设feature_importances_是“基尼重要性”，那么低值是首选的，但在特征重要性中，高值是首选的。

发布于 2021-02-05 15:39:11

features_importances_总是输出特征的重要性。如果值较大，则更重要的是特征，不要考虑基尼系数或熵标准，这并不重要。准则被用来建立模型。在训练模型后应用特征重要性，您只需“分析”并观察哪些值在训练后的模型中更相关。

此外，您将看到所有features_importances_和为1，因此重要性也被视为百分比。

由于RandomForest是由几棵树形成的，因此对所有树的特征重要性进行平均。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/66059092

复制

相似问题

问随机森林“特征重要性”EN