在具有一些特性的数据上,我为回归目的训练了一个随机森林,并且梯度增强了回归树。对于这两种方法,我都计算了特性的重要性,我发现它们有很大的不同,尽管它们的得分相似。
对于随机森林回归:
MAE: 59.11
RMSE: 89.11
Importance:
Feature 1: 64.87
Feature 2: 0.10
Feature 3: 29.03
Feature 4: 0.09
Feature 5: 5.89对于梯度增强的回归树:
MAE: 58.70
RMSE: 90.59
Feature 1: 65.18
Feature 2: 5.67
Feature 3: 13.61
Feature 4: 4.26
Feature 5: 11.27这是为什么?我想,也许是因为有了坡度增强的回归树,树木比随机森林更浅。但我不确定。
发布于 2015-01-10 16:34:10
虽然它们都是基于树的,但它们仍然是不同的算法,因此每个算法计算特性的重要性不同,下面是相关代码:
scikit-learn/sklearn/ensemble/gradient_boosting.py
def feature_importances_(self):
total_sum = np.zeros((self.n_features, ), dtype=np.float64)
for stage in self.estimators_:
stage_sum = sum(tree.feature_importances_
for tree in stage) / len(stage)
total_sum += stage_sum
importances = total_sum / len(self.estimators_)
return importancesscikit-learn/sklearn/ensemble/forest.py
def feature_importances_(self):
all_importances = Parallel(n_jobs=self.n_jobs, backend="threading")(
delayed(getattr)(tree, 'feature_importances_')
for tree in self.estimators_)
return sum(all_importances) / self.n_estimators因此,不同的树木和不同的方式组合树木。
https://stackoverflow.com/questions/27862667
复制相似问题