我很难准确理解几个统计测试,如t检验和方差分析测试.这些测试要求我们使用的数据必须是正态分布的。
然而,在分享我在分析数据方面的经验的同时,我分析了许多在线来源(网络抓取、在线开放访问的数据源等)中的几个数据集,并且有相当多的样本(数百,数千)。有关数据的一个例子是在一段固定时间内(第一天下午1点、第2天下午1点等)向某些运动提供的捐款数额。
当我用视觉辅助(直方图,Q-Q图)和夏皮罗-威尔克斯( Shapiro-Wilks )检验数据的分布是否正常时,他们都告诉我数据不是正常的。例如,Shapiro检验给出的p值很小(小于0.00000000000000022),当然,空假设必须被拒绝,即数据不是正态分布的。
因为我在链接上读到的文章说
然而,即使个别观测的分布不是正态分布,如果你的样本量约为30或更大,则样本均值的分布也将呈正态分布。
所以,我很自然地感到困惑,我的数据是否正常分布?在真实数据中,你多久会遇到一次正常和非正态分布?
根据@hssay在他的回答和评论中的回应,我的主要目标是做方差分析来确定我的数字数据和分类数据之间的关系。但是方差分析需要数据的正态分布。因此,现在我对如何执行它感到困惑,因为我有一个由数千行数据组成的“样本”,而我只获取了一次。
发布于 2018-08-21 11:33:15
你的困惑是恰当的。正常分布的数据并不经常出现。大多数真实世界的数据集比正常的要复杂得多。许多自然发生的现象(认为:人在特定人口中的身高)可能是正常的。但是,大多数人类行为起着重要作用的案例(如你所提到的捐赠、收入、人们的偏好)都会显示出像脂肪尾分布或幂律分布这样的其他分布。
但是,您所强调的结果在统计中讨论了一个名为中心极限定理的结果,该结果指出,您从平均值中推断出的平均值将是正态分布的(不管数据的分布如何)。下面我将用一个例子来解释。
想象一下,你想谈谈美国所有男性的身高。关于这些数据,您可能会问的第一个问题是,中心趋势(平均值)是什么。但你可能没有关于美国每个男性的数据(获取这些数据太昂贵了)。所以你拿了一个样本,假设每个州都有100人。你也不可能知道整个人口的高度分布或形状(你还没有收集到这些数据!)你拿着你收集的样本,计算出高度的平均值。你能说明一下,平均与整个人口的真实平均数有多近?抽样后的计算平均值是一个随机变量,因为对于每个不同的样本,您将得到不同的答案。中心极限定理说,这个随机变量是正态分布的,它的平均值与人口平均数相同,当你有更大的样本时,你的估计会变得更近。(中心极限定理适用于i.i.d. )样本,即样本是相互独立的,它们是从同一个种群中挑选出来的。
总之,正态分布更多地出现在统计检验中,因为你说的是抽样数据的平均分布,而不是数据的实际分布(可以是非正态分布)。在某种程度上,中心极限定理是为什么大多数真实世界的统计应用,从模拟到选举研究(psephology)的工作!
以上所有的理论都回答了你答案的开头部分。但是对于具体的ANOVA测试,您需要数据接近正态分布。看看数据的直方图(是的,我知道你只做过一次抽样),你可以对正常假设进行测试。
https://datascience.stackexchange.com/questions/37225
复制相似问题