开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >解释XGB特性的重要性和SHAP值

问解释XGB特性的重要性和SHAP值
EN

Stack Overflow用户

提问于 2022-06-15 06:00:45

回答 1查看 1.2K关注 0票数 2

对于一个特定的预测问题，我观察到某个变量在生成(基于增益)的XGBoost特性重要性中排名很高，而在SHAP输出中排名相当低。

如何解读这一点？同样，对于我们的预测问题，变量是否非常重要？

machine-learning

EN

回答 1

Stack Overflow用户

发布于 2022-06-15 09:15:28

基于杂质的重要性(例如sklearn和xgboost内置例程)总结了树节点对特性的总体使用情况。这自然赋予高基数特性更多的权重(更多的特征值会产生更多的可能分裂)，而增益可能会受到树结构的影响(节点顺序很重要，尽管预测可能是相同的)。可能会有很多分裂，但对预测或相反的情况影响不大(许多分裂稀释了平均重要性)--参见https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27和https://www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/中的各种失配例子。

以一种过于简化的方式：

set;

permutation重要性解释了特征对模型精度的贡献；

SHAP解释了变化特征值对预测的影响程度(不一定是正确的)。

票数 4

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72626523

复制

相似问题