对于一个特定的预测问题,我观察到某个变量在生成(基于增益)的XGBoost特性重要性中排名很高,而在SHAP输出中排名相当低。
如何解读这一点?同样,对于我们的预测问题,变量是否非常重要?
发布于 2022-06-15 09:15:28
基于杂质的重要性(例如sklearn和xgboost内置例程)总结了树节点对特性的总体使用情况。这自然赋予高基数特性更多的权重(更多的特征值会产生更多的可能分裂),而增益可能会受到树结构的影响(节点顺序很重要,尽管预测可能是相同的)。可能会有很多分裂,但对预测或相反的情况影响不大(许多分裂稀释了平均重要性)--参见https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27和https://www.actuaries.digital/2019/06/18/analytics-snippet-feature-importance-and-the-shap-approach-to-machine-learning-models/中的各种失配例子。
以一种过于简化的方式:
set;
https://stackoverflow.com/questions/72626523
复制相似问题