首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >形状值可以解释对吗?

形状值可以解释对吗?
EN

Data Science用户
提问于 2019-11-26 00:42:54
回答 2查看 2.2K关注 0票数 4

在使用SHAP值解释基于树的模型时,我遇到了一个问题。

(https://github.com/slundberg/shapsd)

首先,我输入了大约30个特征,我有两个特征,它们之间有很高的正相关。

在此之后,我对XGBoost模型(Python)进行了训练,并查看了SHAP值与SHAP值之间的负相关关系。

请大家向我解释一下,为什么两个特性之间的输出SHAP值不具有与输入相关性相同的相关性?我能相信SHAP的输出吗?

=========================

投入的相关性: 0.91788

SHAP值之间的相关性:-0.661088

两个特征是

1)省和

2)省内家庭数。

模型性能

列车AUC: 0.73

测试AUC: 0.71

散点图

输入散点图(x:省家庭数,y:省人口数)

形状值输出散点图(x:省家庭数,y:省人口数)

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-11-26 15:09:35

我猜您所说的SHAP值之间的相关性是"SHAP交互值“。

SHAP值是一种度量特征值如何在观察级别上贡献目标变量的指标。同样,SHAP交互值考虑目标值,而特征之间的相关性(Pearson、Spearman等)不涉及目标值,因此它们可能具有不同的大小和方向。

这些特性可能一起增长,但它们对目标变量的贡献在不同的时间间隔内可能发生逆转。

您可能想检查一下文档和这个漂亮的工作

票数 6
EN

Data Science用户

发布于 2020-02-24 16:37:23

请注意,尽管Shapley值被设计为考虑相关性,SHAP只是它的近似。阅读https://papers.nips.cc/paper/7062-a-unified-approach-to-interpreting-model-predictions.pdf,特别是4.1的第一句话,您可以注意到SHAP假定特性独立。如果近似值以很高的相关性崩溃,我就不会感到惊讶了。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63762

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档