首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >mapreduce程序

mapreduce程序
EN

Stack Overflow用户
提问于 2012-10-13 17:48:53
回答 1查看 135关注 0票数 1

考虑一个.txt文件..因为我没有用换行符分隔的段落。

现在我需要计算每一段中的字数。将统计的单词视为映射器中的关键字,并为所有单词初始赋值1

在Reducer中给我一个排序的输出请给我一个完整的代码以便更好地理解,因为我是一个新手

请给我更好的说明,它如何计算每段的字数

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-15 22:08:01

Mapper执行计数不会产生您试图通过map reduce技术实现的性能。

为了真正利用map reduce的好处,您应该考虑处理段落编号(1用于第一个段落,2用于第二个段落,依此类推),然后将这些段落发送到运行在不同节点上的不同缩减程序(利用并行处理的能力),然后对输出进行排序,您可以将其提供给一个简单的程序来为您进行排序,或者如果段落数量很大,则将其提供给另一个map reduce作业。在这种情况下,您需要考虑将一系列数字作为map reduce的键,例如,从1到10的数字(从上一个map reduce作业获得的段落中的单词计数)应该落入一个存储桶中,并且应该映射到一个键,然后各个reduce可以对这些单独的存储桶进行排序,最后可以对结果进行整理,以获得完整的排序输出。

可以在以下位置找到map-reduce的示例实现:http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12871955

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档