在一个分类问题中,假设一个模型有两个变量,A和B,空模型(没有任何变量的模型)对所有实例预测属于1类的概率为50%。
现在假设对于所有的数据实例xi,特征A使模型能够预测大幅度的正确类的相反值(即,如果真类为1,空模型预测为0.5,A使模型预测0.1概率),B使模型预测到正确的类,但幅度较小(即如果真类为1,空模型预测为0.5,添加B使模型预测0.57)。这意味着特征**B实际上是一个比A更好的特性,但是A的影响比B更强。
计算特征重要性的一种常见方法是计算特征A和B的所有实例的绝对Shapley值的平均值。我刚才给出的例子表明,用平均值求特征重要性的方法会给出错误的结果,因为它会给特征A比特征B更高的重要性。
我说错了吗?
发布于 2023-01-30 20:51:46
我认为你的分析是正确的,但使用了一个非常不寻常的上下文。这将是一个令人印象深刻的坏模型,它自信地在错误的方向上使用A。
如果确实发生了这种情况,shap仍在回答“哪些特性对输出有影响?”正确:A对决策有更大的影响。Shap只能告诉你关于模型的事情,只有当模型相当好的时候,它才能成为现实的代理。
https://datascience.stackexchange.com/questions/118104
复制相似问题