首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用绝对形状值的平均值来表示特征的重要性会产生非常错误的结果吗?

用绝对形状值的平均值来表示特征的重要性会产生非常错误的结果吗?
EN

Data Science用户
提问于 2023-01-27 19:49:48
回答 1查看 27关注 0票数 0

在一个分类问题中,假设一个模型有两个变量,A和B,空模型(没有任何变量的模型)对所有实例预测属于1类的概率为50%。

现在假设对于所有的数据实例xi,特征A使模型能够预测大幅度的正确类的相反值(即,如果真类为1,空模型预测为0.5,A使模型预测0.1概率),B使模型预测到正确的类,但幅度较小(即如果真类为1,空模型预测为0.5,添加B使模型预测0.57)。这意味着特征**B实际上是一个比A更好的特性,但是A的影响比B更强。

计算特征重要性的一种常见方法是计算特征A和B的所有实例的绝对Shapley值的平均值。我刚才给出的例子表明,用平均值求特征重要性的方法会给出错误的结果,因为它会给特征A比特征B更高的重要性。

我说错了吗?

EN

回答 1

Data Science用户

发布于 2023-01-30 20:51:46

我认为你的分析是正确的,但使用了一个非常不寻常的上下文。这将是一个令人印象深刻的坏模型,它自信地在错误的方向上使用A

如果确实发生了这种情况,shap仍在回答“哪些特性对输出有影响?”正确:A对决策有更大的影响。Shap只能告诉你关于模型的事情,只有当模型相当好的时候,它才能成为现实的代理。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118104

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档