无论如何,在map reduce框架中有很多跨节点的文件传输。那么分布式缓存的使用如何提高性能呢?
发布于 2015-06-29 14:19:06
DistributedCache是Map-Reduce框架提供的用于缓存应用程序所需文件的工具。一旦您为您的作业缓存了一个文件,hadoop框架将使它在您运行map/reduce任务的每个数据节点上(在文件系统中,而不是在内存中)可用。这些文件通过网络传输,通常是通过HDFS。对于非数据本地任务,它不会给网络带来比使用HDFS更多的压力。
发布于 2015-07-01 09:31:42
https://stackoverflow.com/questions/31108514
复制相似问题