机器学习中的人们(或者更广泛地说,在数据挖掘中)是否意识到,从相关性中无法推断出任何因果关系?
我对ML/AI社区的印象是,大多数参与其中的人都有计算机科学背景。我认为,指出这并不是学术意义上的科学(如物理、化学、心理学),这是没有争议的。因此,这些人大多没有接受过科学方法、统计学甚至数学方面的正规培训。
“相关性不等于因果关系”是第一课。1统计数字。为了建立因果关系,需要进行实验(在一些非常特殊的情况下,还可以使用其他技术)。对我来说,这似乎是对机器学习的根本和灾难性的限制。ML可以很好地描述数据(并对其进行分类),但它永远无法替代实验。因此,ML的应用范围受到限制。
我的问题是关于ML社区的氛围。
发布于 2017-01-09 15:42:13
我认为您对机器学习按顺序排列的角色有些困惑,我觉得您对ML社区的印象有点奇怪。
首先,ML专家通常不是使用ML算法解决科学问题的人--这些人现在通常被称为“数据科学家”,原则上他们应该有某种科学、统计和/或数学方面的背景。是的,(好的)数据科学家花了很多时间来担心因果推理--他们不得不这样做,因为有很多大公司在他们的预测上赚了很多钱。与您的印象相反,ML专家通常也知道这些问题,但他们的工作是构建和分析建模工具,而不是将它们实际应用于实际数据。当然,有很多ML和数据科学的人跨越这两个领域之间的界限,但我的问题是,你的问题有点像问为什么数学家不担心实验错误。
尽管如此,还是有很多人(大多数?)ML算法更倾向于分类问题,这些问题不太容易受到您的关注。你仍然需要担心一些棘手的统计问题,比如过度拟合和构建良好的培训/验证数据集,但重点在于了解数据的结构,而不是预测未来。
https://datascience.stackexchange.com/questions/16206
复制相似问题