有没有办法组合两个数据集的协方差,而不是通过合并数据来计算新的协方差。假设我已经从100万个数据中计算出协方差,那么如果我又得到了另外200万个已经计算出协方差的数据,我能把已经计算出来的协方差组合起来生成新的协方差吗?我最感兴趣的是,当我从三百万个数据中计算协方差时,所需的计算量。
这是很容易做到的吝啬。新均值= (data_size_1* mean_1 +data_size_2*mean_2)/(data_size_1+ data_size_2)
有没有类似的方法来计算协方差,这样我就可以利用预先计算出来的数据。我还可以在计算data_size_1和数据data_size_2的协方差时存储一些信息,如果这可以帮助我轻松找到新的合并协方差。
发布于 2017-08-27 07:20:09

完整的推导在这个pdf http://prod.sandia.gov/techlib/access-control.cgi/2008/086212.pdf中给出。
https://stackoverflow.com/questions/45773857
复制相似问题