我目前正在研究随机森林分类器。随机森林分类器的参数之一是“准则”,它有两个选项:基尼系数或熵。基尼系数越低越好,熵值越高越好。默认情况下,gini是随机森林分类器的标准。
sklearn提供了一个名为feature_importances_的属性,我们可以在其中获取所提供的属性/特性的值。通过使用,我们可以选择一些特征,并使用"threshold and SelectFromModel“消除一些特征
我的疑问是,这些feature_importances_是根据什么计算的?假设默认标准"Gini“可用。如果我假设feature_importances_是“基尼重要性”,那么低值是首选的,但在特征重要性中,高值是首选的。
发布于 2021-02-05 15:39:11
features_importances_总是输出特征的重要性。如果值较大,则更重要的是特征,不要考虑基尼系数或熵标准,这并不重要。准则被用来建立模型。在训练模型后应用特征重要性,您只需“分析”并观察哪些值在训练后的模型中更相关。
此外,您将看到所有features_importances_和为1,因此重要性也被视为百分比。
由于RandomForest是由几棵树形成的,因此对所有树的特征重要性进行平均。
https://stackoverflow.com/questions/66059092
复制相似问题