在预测之后,feature_importances_ (特别是GradientBoostingClassifier,但可能存在于其他方法)具有重要的特性。根据文档,越高,特性就越重要。
你知道这些数字是什么意思吗?
我得到的数值从0.02到10^-6或0。
如果一个特征的重要性为0.02,那么它的重要性占所有特征的2%,但这与预测的准确性或预测相关性有什么关系呢?我能否解释这个数字,并明白删除这些特征会如何影响预测?
发布于 2016-01-11 22:27:48
Gilles是sklearn合奏和树模块的主要作者,他对here这个问题做了一个很好的回答。
有不同的方法来量化决策树中的节点如何帮助将传入的数据集划分为具有比拆分前更具有累积预测性的输出类的块。这样的度量之一是gini importance,它是数据集在节点上分离的输出类杂质减少的度量。这种度量,根据数据集实际使用特征被分割并在集合中的所有决策树上进行平均分割的行数来加权,从而确定了学习过程中的feature_importance_。
https://stackoverflow.com/questions/34729460
复制相似问题