标题很大程度上涵盖了我的问题,但为了详细说明它:对于二进制分类问题(同样,对于简单性,并给出处理和控制组的“感觉”),如果我们使用机器学习模型(例如随机森林),我们最终会从经过训练的模型中获得特征重要性。该培训利用上下采样或其他方法处理数据不平衡,并使用适当的样本,如在训练和验证期间分层,以模拟随机对照试验。我们还假设特性列表中有所有的混淆,即不再有其他混淆。我知道,ML模型只希望了解相关性,而不希望了解特性之间的因果关系。特征重要性图与实际因果结构的距离会有多远?当然,在特性重要性图中不会有任何因果箭头。首先猜测因果箭头从最重要的特征到最不重要的特征会不会离现实太远?真正想要理解这个问题,而不是在这里发表意见。如果也有一些参考来讨论这一点,那也是有帮助的。
发布于 2023-03-14 16:21:32
一般情况下,
。
因果图的关键部分是识别与其条件独立性声明一致的变量之间的编码预测关系的图表。有关因果图的介绍,请参见这里。相比之下,标准机器学习算法将简单地使用所有其他变量来最好地预测目标变量,而不考虑条件独立性。
在这种情况下,特性重要性可能包含一些关于特性和目标之间因果依赖的信息(例如,如果不是直接原因的变量无助于预测目标)。然而,这种情况并不一定是这样的,而且在一般情况下也无从得知。至于特征之间的任何关系,特征重要性图并不是因果关系或其他任何东西的合适指标--它只度量特征相对于目标的预测重要性。
机器学习模型可以正确识别预测不需要间接原因,抛弃间接原因,并根据其因果影响对直接原因给予重视。在这种情况下,特征重要性可以很好地反映特征对目标的因果影响。
的影响
机器学习模型可以很好地预测,但它发现的任何关系都将与实际因果方向相反。在这种情况下,特征的重要性会给特征和目标之间的因果关系带来一个非常错误的概念。
https://datascience.stackexchange.com/questions/75599
复制相似问题