DistributedCache是Map-Reduce框架提供的用于缓存应用程序所需文件的工具。一旦您为您的作业缓存了一个文件，hadoop框架将使它在您运行map/reduce任务的每个数据节点上(在文件系统中，而不是在内存中)可用。这些文件通过网络传输，通常是通过HDFS。对于非数据本地任务，它不会给网络带来比使用HDFS更多的压力。

票数 0

Stack Overflow用户

发布于 2015-07-01 09:31:42

在程序运行时，不会有大量的文件传输。想法是最大限度地减少网络数据传输。这就是为什么计算被移到数据附近的原因。
分布式缓存是所有map或reduce任务都需要的数据，而不像普通数据那样只需要部分数据(任务拆分)。这就是为什么它会分布到所有运行任务的节点上。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31108514

复制

相似问题

问为什么我们在hadoop中使用分布式缓存？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我们在hadoop中使用分布式缓存？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么我们在hadoop中使用分布式缓存？
EN