首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >XGBoost最重要的特性多次出现在多棵树中

XGBoost最重要的特性多次出现在多棵树中
EN

Data Science用户
提问于 2018-12-19 14:39:43
回答 1查看 242关注 0票数 2

我正在将xgboost模型(Scala)与我的事务数据集相匹配。在我的培训集中,我有大约两百万笔交易,这是一个高度不平衡的比率,正/负<0.001班。我现在在模型中有大约300个功能。

然后,我取一个输出模型并对每个特性进行计数。

  • 在有多少棵树上有一个特征
  • 在有多少个拆分特性存在

然后,我从大多数树到最少树的特征进行分类。我得到了一些我不确定的结果。列表顶部的特性,大多数树和分叉基本上出现在每个xgboost树中多次。例如,在具有100轮colsample_bytree=1.0max_depth=6的xgboost中,我会看到在100个树中出现了一个特性A,并且在大约400个分叉中出现了一个特性。特征B出现在98棵树和350个分裂等。基本上,我所有的树似乎都是基于相同的顶部特征,在不同的配置。

问题:

这是否意味着:

  • 它很正常
  • 这些功能是否与我的模型相配?
  • 我试图通过减少colsample_bytreecolsample_bylevel来迫使模型采用其他特性,这虽然有所帮助,但模型性能并没有显着地提高。

还有其他建议吗?

更新观测(2019年2月)

  • 这些特征是连续的,不是绝对的。
  • 当我根据所有特征的总增益(在所有在该特征上分裂的节点中的增益之和)对所有特征进行排序时,所有树中多次出现的特征总增益最高或总增益很低。这里没有规则。
EN

回答 1

Data Science用户

发布于 2018-12-20 06:35:13

对你的问题:

  1. 也可以是正常的。
  2. 功能本身并不是过度适应的原因。它可以是来自它们的噪音,也可以是没有因果关系的相关关系。即,特征在训练集中相关,而在测试集中不相关。过度拟合与模型有关。
  3. 也许你还没有一个能显著改善你的模型的功能。以如此有限的信息很难说。你需要尝试一些关于特征选择的实验。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档