首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何划分map-reduce任务?

如何划分map-reduce任务?
EN

Stack Overflow用户
提问于 2017-02-13 20:54:56
回答 1查看 138关注 0票数 0

我有一个包含200列的表,其中我需要一个列表中提到的大约50列,以及根据列‘时间戳’过去24个月的行。

我搞不懂mapper下的是什么,reducer下又是什么?

由于它只是转换,它将只有映射器阶段,或者过滤到24个月的行将在reducer下?我不确定这是否使用了map-reduce的用途。

我正在使用python和hadoop流媒体。

EN

回答 1

Stack Overflow用户

发布于 2017-02-14 19:36:24

因此,您有一个包含200列(例如T)的表,一个单独的条目列表(例如L)可从T中挑选,并带有最近24小时(从T中的时间戳)。

MapReduce,映射器确实从T开始按顺序给出条目。在您的映射器进入map()之前,即在setup()中,将要从L中读取的代码块放入并使其方便(使用可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件: 1)如果T中的条目包含/匹配L。如果是,则检查2)如果数据在24小时范围内。

好了。您的输出是您所期望的。不,这里需要reducer,至少要做这么多。

地图缩小快乐。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42204582

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档