我有一个包含27个不同变量的时间序列数据框架。实际上,它们都是不同的仪器,每5分钟记录一次相同的测量值。
我想知道是否有一种方法可以确定哪些变量(比如前5个最相似的变量)在数值上最相似。
如果要计算这个值,我会每隔5分钟计算每个可能的仪器对的记录值之间的平均差值,然后找到平均差值最小的5个仪器对。手动执行此操作将需要很长时间,因为我需要计算大约27*27=729对,然后找到具有最小平均差异的对。
有没有更好/更简单的方法来做这件事?
我已经研究了相关性,但这不会产生我想要的结果-这将显示变量的相关性,而不是哪些变量在数值上最相似。
希望这是有意义的。
发布于 2020-04-29 23:49:12
由于这是一个测量问题,也许你想看的是仪器如何类似地错误地测量基本事实或实际现象。也就是说,查看成对仪器之间的测量误差(定义为测量减去地面实况)的相关性。
如果你创建了一个矩阵X,每个仪器有一列,每组测量误差在给定的时间有一行,那么相关性就是转置(X)乘以X。如果你没有基本事实,也许测量的平均值是一个可行的替代品。如果你不是同时测量所有的仪器,那么计算误差之间的相关性将会更加复杂。
因为这主要是一个讨论式的问题,所以它更适合stats.stackexchange.com。祝你好运,玩得开心,这是一个有趣的问题。
https://stackoverflow.com/questions/61504969
复制相似问题