我有一个包含200列的表,其中我需要一个列表中提到的大约50列,以及根据列‘时间戳’过去24个月的行。
我搞不懂mapper下的是什么,reducer下又是什么?
由于它只是转换,它将只有映射器阶段,或者过滤到24个月的行将在reducer下?我不确定这是否使用了map-reduce的用途。
我正在使用python和hadoop流媒体。
发布于 2017-02-14 19:36:24
因此,您有一个包含200列(例如T)的表,一个单独的条目列表(例如L)可从T中挑选,并带有最近24小时(从T中的时间戳)。
MapReduce,映射器确实从T开始按顺序给出条目。在您的映射器进入map()之前,即在setup()中,将要从L中读取的代码块放入并使其方便(使用可行的数据结构来保存数据列表)。现在,您的代码应该包含两个检查/条件: 1)如果T中的条目包含/匹配L。如果是,则检查2)如果数据在24小时范围内。
好了。您的输出是您所期望的。不,这里需要reducer,至少要做这么多。
地图缩小快乐。
https://stackoverflow.com/questions/42204582
复制相似问题