我想知道Causal inference是如何与machine learning一起使用的,尤其是在数据科学项目中?我一直在寻找答案,并得出结论,在建模阶段之后可以使用因果推理来确定变量与目标/结果之间的某些相关性。
例如,如果模型具有良好的准确性,并且在输入A和目标B之间具有高度的相关性/关联,则可能需要执行因果推理来验证A对B的影响。
我想知道我的理解是否正确,也知道机器学习是否有因果推理的其他应用。
发布于 2019-02-28 18:07:10
你的理解是正确的。找出变量之间的相关性很简单,但将它们转化为因果断言需要额外的努力。因果推理主要是以“做X使Y发生”的形式来达到“处方”。
不使用因果推理时的
如果有可能做实验,就可以避免因果推理。例如,A\B测试可以让您研究两组改变的影响,并得出因果关系的结论。例如,A\B测试的结果将是“A组的用户看到颜色强度50的按钮比B组的颜色强度40多10%”,X=‘增加按钮的颜色强度’,这样Y=‘更多的点击’发生。对于更大、更统一的组,您的断言将更可靠。
机器学习中的
在大多数机器学习项目中,这些类型的实验是可能的,而且大多是廉价的,因此为什么要费心呢?而且,特别是在预测项目中,价值来源于相关关系。因果关系的知识是相关关系的一个子集,并不会增加价值。
当您使用历史数据或您只能“观察”数据而不影响它时,因果推理就会起作用。一般说来,因果推理是一个有争议的话题,因为它试图从观测数据中提取因果关系(与A\B测试中的实验数据相反)。
据我所知,因果推理的主要贡献者是朱迪亚·珀尔教授。他的基本工具是概率图形模型(PGM)和做微积分。这些工具使我们明确地编码了关于数据生成机制的假设,并得出了因果结论。因此,当像“做X,这样Y发生了”这样的断言出错时,我们可以以一种有原则的方式来跟踪我们的假设中的问题。例如,我们可能忽略了一个重要的隐藏变量,如果包含它,我们的结论就会改变。他说,从根本上说,任何得出“规定性”结论的人都是在做因果推断,所以最好明确地列出你的假设,以防止相关的因果关系问题不被注意到。
https://datascience.stackexchange.com/questions/46274
复制相似问题