我对数据科学和统计很陌生,所以这似乎是个初学者的问题。
我正在开发一个数据集,用户的Twitter关注者每天都在增加。我想衡量他在一段时间内的平均增长,我通过找到增长的平均值来衡量。但有人建议我用中位数来做这个。
有谁能解释一下,在哪一种用例中,我们应该使用均值,以及何时使用中位数?
发布于 2019-03-06 04:20:45
算术平均值表示为\bar{x}。
其中每个x_i代表一个独特的观察。算术平均值测量给定的一组数字的平均值。
与此相反,中位数是直接落在数据集中的值。当你处理一个很宽的范围时,或者当有一个离群点(一个非常高或很低的数字与其他值相比)时,这个中位数特别有用,它会使平均值倾斜。
例如,通常使用中介来讨论薪资问题。这是因为大多数人和极少数有钱人之间的差距很大(少数有钱的人是离群的)。因此,在这种情况下,观察50%的百分位数会给出一个比平均值更有代表性的值。
或者,通常用平均(平均)来描述成绩,因为大多数学生应该接近平均水平,很少人会远低于或远高于平均水平。
发布于 2019-03-06 10:05:24
这取决于你想回答什么问题。你在看一个时间序列的变化速度,听起来你是在试图展示随着时间的推移它是如何变化的。这个平均值给了读者一个直观的洞察力:他们可以通过乘以平均变化率,在从一开始起的任何日期( d ),对关注者的数量进行微不足道的估计。
这个单一指标的缺点是,它没有说明一些非常常见的事情,如这样:变化的速度不是随时间而固定的。一个合理的指标,让读者知道变化的速度是否是静态的,是给他们的中位数。如果他们知道序列的最小值(在你的例子中大概为零)、当前值、平均值和中值,在许多情况下,他们可以“感觉”到线性增长有多近。
在安斯库姆四重奏中有一个很好的警示故事--四个完全不同的时间序列,它们都有几个重要的统计指标。基本上,它总是回到你想要回答的问题。你是否试图找到那些可能很快就会变得显赫的用户?用户谁是稳步增长的追随者逐年?一个奇迹?僵尸网络?
正如您可能已经猜到的,这意味着不可能普遍地将平均值或中值称为“更好”。
发布于 2019-03-06 07:21:47
简单地说,如果你的数据被噪音破坏了,或者说你的推特上有错误的no.of追随者,那么把平均值作为衡量标准可能是有害的,因为模型的性能会很差。在这种情况下,如果您取值的中值,它将处理数据中的异常值。希望它能帮上忙
https://datascience.stackexchange.com/questions/46744
复制相似问题