首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >变异分解--架起各种统计方法之间的鹊桥

变异分解--架起各种统计方法之间的鹊桥

作者头像
医学和生信笔记
发布2026-03-17 18:00:32
发布2026-03-17 18:00:32
800
举报

变异这一词在初学统计的时候一般都会接触到,而且一般老师也都会说,描述变异的主要指标有方差、标准差等等之类的。但是其实关于变异的理解,很多人仍然只是停留在肤浅的表面,事实上,变异不仅仅是个名词,更是连接各种统计方法的桥梁。

你可能知道,方差分析用的是变异分解思想,也有人曾注意到,线性回归的统计软件分析结果中,也会出现方差分析的结果。曾有学生问过我,为什么到处出现方差分析?方差分析不就是用于多组均值的比较吗?

事实上,方差分析不仅仅是一种方法,更是一种思想,是贯穿很多统计学方法的思想。理解方差分析的思路,不仅仅是掌握方差分析的方法,更重要的是让你踏上桥梁,走的更远,看的更广。

下面先从方差分析的思想说一下变异的重要性,然后再慢慢串起其它方法。

假如有三组人群,每组20人,服用三种降压药,比较用药后的血压值(假定用药前三组血压值差不多,忽略用药前的基线血压情况)。

首先,这三组60人之间的血压值肯定各有不同,这种不同用专业术语称之为变异(variation),而方差则是体现变异的常用指标。如果你仔细看一下方差分析的英文analysis of variance,实际上就是对变异的分析,所以,有的统计教材也称之为变异数分析。

三组的所有人(60个数据)之间存在变异,这种变异一般用离均差平方和表示,也就是每个值减去总均值,求平方,再把所有平方相加,这也就是每个值偏离均值的平方和,专业术语称为离均差平方和(统计教材上称之为总变异)。

我们其实就是想知道,为什么会存在变异?为什么有的人服药后血压降低了,而有的人没有降低?至少有两个原因:第一是个体之间的差异(统计教材上称之为组内变异),每个人的体质不同,比如体型、饮食等肯定会有所影响。第二是药物的影响(统计教材上称之为组间变异),比如三种药物中,可能A药效果好,从而服用A药的人血压比较低。

很明显,哪个因素造成的变异大,哪个因素对结果的影响就大(仔细想想你大学时候,哪个女孩让你的心率波动变大,造成你的心率变异大,是不是哪个女孩对你的影响就大?)。

所以,如果要弄清楚刚才说的两个原因中,哪个对结果影响大,实际上就是看哪个造成的变异大。那这还不简单?求出组间的离均差平方和以及组内的离均差平方和,一比较就完了。如果组间变异远远大于组内变异,那我们就可以认为总变异主要是由组间变异引起的(本例中就是主要是药物的不同降压效果造成的)。如果二者差别不大,那就不能说主要是由药物的疗效造成的,换句话说,药物的疗效可能对血压的影响并不大。

但是还有一个问题,那就是数据存在这样一个规律,数据越多,变异越大,这个很容易理解,1000个人之间的差异肯定要比10个人之间的差异多。所以现在问题来了:组间只有3组,而每个组内有20个人,很明显,20个人的差异要大于3个人的差异。

那怎么抵消人数的影响呢,太简单了,用离均差平方和除以例数就得了,得到一个平均的离均差平方和,这样就可以抵消人数的影响了。实际上,离均差平方和除以例数(实际中一般除以自由度,但是差不多的意思)就是方差,一般统计教材中也称为均方,但实际上也就是方差。所以最后就变成了分别用组间方差与组内方差作为组间和组内变异的大小,二者比较,看看哪个大。

组间均方除以组内均方就是通常所说的F值,实际上代表了这样一个含义:如果组间变异远远大于组内变异,那么组间均方除以组内均方的值肯定很大,反之,这一值就会很小。但是,到底大到什么程度才认为有统计学意义呢,那就得根据F分布了。

由于我们所有的计算都是在一种假定(统计教材上称之为无效假设,即首先假定组间无差异,或者说组间方差为0)的基础上算出来的,从F分布图形来看,过大的F值(意味着组间方差很大)出现的概率是很小的,所以F值越大,表明你的结果在假定的条件下出现的概率越小(这句话需要仔细体会一下),或者说,在假定的条件下,不大可能出现太大的F值,而一旦出现,我们可能要怀疑,是不是假定的条件不对?如果这种概率小于0.05,我们更加怀疑了,这时候我们就有95%的把握认为,假定的条件是不对的。据此我们就得出了结论,推翻初始的假定,而认为假定的对立面是正确的。

刚刚我们只是说了方差分析,可能你要说,这不是只有方差分析中才有变异吗?跟t检验、线性回归有什么关系呢?

不知道大家有没有注意到t检验的公式,如果忘了,我希望你现在就翻开课本,仔细看看t检验的公式。以两组独立样本比较的公式为例,分子是什么?组间差异。分母又是什么?均数差值的标准误。这两个可都是反映了变异啊,不要觉得分子的两个值就不叫变异了。那这两个的比值是什么呢?不就是组间差异与组内差异的比值吗?试着从另外一个角度去理解t检验吧。

再说线性回归,那更是无处不变异。首先因变量y的值各不相同,这就是变异,线性回归就是为了弄明白,为什么这些y值不一样。所以才要有自变量x,看看哪个自变量对y的变异解释的更多。很明显,哪个解释的多,哪个自变量就对y的影响大。所以,为什么线性回归的结果中会出现方差分析的字眼,因为它也在方差分解啊,把总的y的变异分解为模型所能解释的部分,以及不能解释的部分。

所以说,统计学不是一味死记硬背,也不是照搬课本,一定要活学活用,各种方法之间不是毫无关联的。即使天地相隔,牛郎和织女还能通过鹊桥联系呢,更何况这些方法之间呢?如果有一天,你把各种方法之间的关联弄清楚,就会发现,你的统计学水平又上升了一个高度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 医学和生信笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档