文章/答案/技术大牛

发布

社区首页 >问答首页 >XGBoost最重要的特性多次出现在多棵树中

问XGBoost最重要的特性多次出现在多棵树中
EN

Data Science用户

提问于 2018-12-19 14:39:43

回答 1查看 242关注 0票数 2

我正在将xgboost模型(Scala)与我的事务数据集相匹配。在我的培训集中，我有大约两百万笔交易，这是一个高度不平衡的比率，正/负<0.001班。我现在在模型中有大约300个功能。

然后，我取一个输出模型并对每个特性进行计数。

在有多少棵树上有一个特征
在有多少个拆分特性存在

然后，我从大多数树到最少树的特征进行分类。我得到了一些我不确定的结果。列表顶部的特性，大多数树和分叉基本上出现在每个xgboost树中多次。例如，在具有100轮colsample_bytree=1.0和max_depth=6的xgboost中，我会看到在100个树中出现了一个特性A，并且在大约400个分叉中出现了一个特性。特征B出现在98棵树和350个分裂等。基本上，我所有的树似乎都是基于相同的顶部特征，在不同的配置。

问题：

这是否意味着：

它很正常
这些功能是否与我的模型相配？
我试图通过减少colsample_bytree或colsample_bylevel来迫使模型采用其他特性，这虽然有所帮助，但模型性能并没有显着地提高。

还有其他建议吗？

更新观测(2019年2月)

这些特征是连续的，不是绝对的。
当我根据所有特征的总增益(在所有在该特征上分裂的节点中的增益之和)对所有特征进行排序时，所有树中多次出现的特征总增益最高或总增益很低。这里没有规则。

xgboost

apache-spark

scala

回答 1

Data Science用户

发布于 2018-12-20 06:35:13

对你的问题：

也可以是正常的。
功能本身并不是过度适应的原因。它可以是来自它们的噪音，也可以是没有因果关系的相关关系。即，特征在训练集中相关，而在测试集中不相关。过度拟合与模型有关。
也许你还没有一个能显著改善你的模型的功能。以如此有限的信息很难说。你需要尝试一些关于特征选择的实验。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/42880

复制

相似问题

问XGBoost最重要的特性多次出现在多棵树中
EN

问题：

更新观测(2019年2月)

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问XGBoost最重要的特性多次出现在多棵树中EN

问题：

更新观测(2019年2月)

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问XGBoost最重要的特性多次出现在多棵树中
EN