首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >何时使用平均值与中位数

何时使用平均值与中位数
EN

Data Science用户
提问于 2019-03-06 03:30:10
回答 5查看 3.3K关注 0票数 8

我对数据科学和统计很陌生,所以这似乎是个初学者的问题。

我正在开发一个数据集,用户的Twitter关注者每天都在增加。我想衡量他在一段时间内的平均增长,我通过找到增长的平均值来衡量。但有人建议我用中位数来做这个。

有谁能解释一下,在哪一种用例中,我们应该使用均值,以及何时使用中位数?

EN

回答 5

Data Science用户

回答已采纳

发布于 2019-03-06 04:20:45

算术平均值表示为\bar{x}

\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i

其中每个x_i代表一个独特的观察。算术平均值测量给定的一组数字的平均值。

与此相反,中位数是直接落在数据集中的值。当你处理一个很宽的范围时,或者当有一个离群点(一个非常高或很低的数字与其他值相比)时,这个中位数特别有用,它会使平均值倾斜。

例如,通常使用中介来讨论薪资问题。这是因为大多数人和极少数有钱人之间的差距很大(少数有钱的人是离群的)。因此,在这种情况下,观察50%的百分位数会给出一个比平均值更有代表性的值。

或者,通常用平均(平均)来描述成绩,因为大多数学生应该接近平均水平,很少人会远低于或远高于平均水平。

票数 11
EN

Data Science用户

发布于 2019-03-06 10:05:24

这取决于你想回答什么问题。你在看一个时间序列的变化速度,听起来你是在试图展示随着时间的推移它是如何变化的。这个平均值给了读者一个直观的洞察力:他们可以通过乘以平均变化率,在从一开始起的任何日期( d ),对关注者的数量进行微不足道的估计。

这个单一指标的缺点是,它没有说明一些非常常见的事情,如这样:变化的速度不是随时间而固定的。一个合理的指标,让读者知道变化的速度是否是静态的,是给他们的中位数。如果他们知道序列的最小值(在你的例子中大概为零)、当前值、平均值和中值,在许多情况下,他们可以“感觉”到线性增长有多近。

安斯库姆四重奏中有一个很好的警示故事--四个完全不同的时间序列,它们都有几个重要的统计指标。基本上,它总是回到你想要回答的问题。你是否试图找到那些可能很快就会变得显赫的用户?用户谁是稳步增长的追随者逐年?一个奇迹?僵尸网络?

正如您可能已经猜到的,这意味着不可能普遍地将平均值或中值称为“更好”。

票数 14
EN

Data Science用户

发布于 2019-03-06 07:21:47

简单地说,如果你的数据被噪音破坏了,或者说你的推特上有错误的no.of追随者,那么把平均值作为衡量标准可能是有害的,因为模型的性能会很差。在这种情况下,如果您取值的中值,它将处理数据中的异常值。希望它能帮上忙

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46744

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档