开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >mapReduce与序贯法

问mapReduce与序贯法
EN

Stack Overflow用户

提问于 2013-10-23 17:42:58

回答 1查看 1.5K关注 0票数 0

对于如何在hadoop中检索数据，我有些困惑。

mapReduce是用于从hadoop集群(HDFS)检索数据，还是仅限于聚合。
Hadoop支持顺序搜索，而不是我们可以说hadoop处理数据是并行的，在遍历每个节点时，搜索与处理有何不同？
如果我错了，请纠正我:是否每个节点的块是按顺序读取的，但是集群中的许多节点是并行处理的。我的意思是，两个作业在两个不同的节点上并行运行，每个作业同时对每个节点的所有相关块进行顺序搜索。例如: Node1: A块B，C块Node2: D块，E块，F块我的假设:块A->块B->块C块D，E块，F块

其中，->是顺序式的，x是平行的。

假设我想搜索在过去两年中从公司获得最大利益(现金)的四名员工中的一名。这里的搜索和检索是如何运作的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-23 18:20:04

MapReduce作业可以从HDFS读取数据。其他数据源也是可能的。
请查看MapReduce教程并分析地图减少工作流。
它严格依赖于在给定节点上并行运行的输入数据大小和可用工作人员的数量(map / data任务)。如果每个节点有3个工作人员，那么所有三个块(分别是A、B、C和D、E、F)都可以并行处理。块本身中的数据是按顺序从磁盘读取的。

就示例而言，您的方法可以类似于以下内容：

映射任务:处理所有员工，并在单个数据块中计算员工的本地最大福利，并输出此最大值(即作为一对[local_max_benefits, employee_id] )。
减少任务:从映射任务中迭代本地极大值，并将全局最大值计算为[local_max_benefits, {employee_id1, ..., employee_idN}]。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19548716

复制

相似问题