首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Nutch 1.16 Fetcher reducers?

Apache Nutch 1.16 Fetcher reducers?
EN

Stack Overflow用户
提问于 2020-07-21 05:12:07
回答 1查看 43关注 0票数 0

根据Apache Nutch1.16Fetcher类实现here - https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/Fetcher.java,这是一个只有map的任务。我在工作中没有看到任何减速机。所以我的问题是,为什么不设置job.setNumreduceTasks(0),并通过直接输出到HDFS来节省时间。

EN

回答 1

Stack Overflow用户

发布于 2020-07-22 22:07:09

因此,在Nutch的用户邮件列表中讨论之后,我得出结论,即使没有与Fetcher.java关联的reducer类,它仍然是必要的,因为输出需要按键排序,即本例中的URL。因此,如果我们设置setNumreduceTasks = 0,则不会发生排序阶段,映射器将直接写入HDFS,您将在日志中注意到“键乱序异常”异常。

代码细节-检查这一行- https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/Fetcher.java#L490,它使用FetcherOutputFormat.java作为输出格式,如果你在这里看这个类https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/FetcherOutputFormat.java#L77,它使用hadoop MapFile,它按顺序添加条目,因此排序阶段不能被跳过。

此外,请注意,在爬行流之外,还有其他工具,如SegmentReader (https://nutch.apache.org/apidocs/apidocs-1.16/org/apache/nutch/segment/SegmentReader.html),它也希望对数据进行排序。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63003881

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档