有人说,当我们希望在纸质引用中进行统计时,map-还原可以比传统方法做得更好,因为传统的方法需要大量的内存/磁盘开关。我不太明白为什么传统的方法不好。
假设我只在一台机器(没有集群)上运行map-还原,它是否仍然比传统方法更好地解决了一些问题?
或者说,从算法的角度来看,“地图约简”的算法范式本身在解决问题方面是否有一些优势?
谢谢。
发布于 2016-08-24 13:01:43
充其量M/R允许重新应用与高级统计软件包相同的算法。但更典型的情况是,在所使用的算法中做出了一些牺牲--允许以分布式方式运行。Map/Reduce在交叉抽样(或任何其他抽样方法)中提供更均匀的随机分布,在这方面没有提供“魔力”。
对于适合内存的小型数据集来说,M/R通常比传统的包更糟糕--这是由于算法在可伸缩性方面所做的妥协。当使用禁止在一台机器上完全采样的大型数据集时,您开始看到M/R的优势。使用R/ Matlab / SAS通常需要向下采样--可能是按数量级或数量级。
https://stackoverflow.com/questions/39120590
复制相似问题