我有一组数据,超过1000行和20个属性(以列显示)。我想使用均值居中,这包括从每个值中去掉均值,得出均值为0。我是逐个属性地删除均值,还是从每个属性中删除所有属性的均值?
例如,如果属性A的平均值为500,属性B的平均值为1,000。对于A中的所有值,我可以删除500,这使A属性的平均值为0。然后,我可以对属性B执行相同的操作。
或
我可以从这两个属性的所有值中减去750。
哪一个在统计上更正确?
我的问题是:如果我从不同的属性中减去不同的值,那么这些属性就不再具有可比性,因为从每个属性中提取了不同的量。如果我从所有列中减去相同的值,那么一些列可能充满了负数(因此否定了均值居中的效果)。
谢谢,
发布于 2012-05-13 05:34:42
通常,您会将每个属性分别居中。
如果您将每个属性单独居中,您将假设对于个人来说,重要的是每个度量与该属性的平均值之间的差异,并且您将丢失该个人的属性的绝对比较。
例如,如果你有一个人的身高,体重,将它们分开居中,你可以问“一个人比平均身高高,体重是否也比平均体重大”。把身高和体重算在一起是没有意义的。
思考它的一种方式是,你正在创造一个普通的个体,你现在可以将其作为所有观察结果的基准。
现在,如果两个指标的绝对值是可比较的,比如产品价格和成本,你就不能再对它们进行比较了,因为它们会发生变化。如果您关心的是对单个观察值使用绝对比较的度量,则需要创建辅助度量,例如%利润。在这种情况下,中心值将允许您问“价格更高的产品是否比平均价格更有利可图”。
https://stackoverflow.com/questions/10565787
复制相似问题