首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解释XGB特性的重要性和SHAP值

解释XGB特性的重要性和SHAP值
EN

Stack Overflow用户
提问于 2022-06-15 06:00:45
回答 1查看 1.2K关注 0票数 2

对于一个特定的预测问题,我观察到某个变量在生成(基于增益)的XGBoost特性重要性中排名很高,而在SHAP输出中排名相当低。

如何解读这一点?同样,对于我们的预测问题,变量是否非常重要?

EN

回答 1

Stack Overflow用户

发布于 2022-06-15 09:15:28

基于杂质的重要性(例如sklearn和xgboost内置例程)总结了树节点对特性的总体使用情况。这自然赋予高基数特性更多的权重(更多的特征值会产生更多的可能分裂),而增益可能会受到树结构的影响(节点顺序很重要,尽管预测可能是相同的)。可能会有很多分裂,但对预测或相反的情况影响不大(许多分裂稀释了平均重要性)--参见https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27https://www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/中的各种失配例子。

以一种过于简化的方式:

set;

  • permutation重要性解释了特征对模型精度的贡献;

  • SHAP解释了变化特征值对预测的影响程度(不一定是正确的)。
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72626523

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档