我正在尝试在Amazon EMR集群上设置一个nutch爬虫,该集群有两个可伸缩的主节点。我的种子url列表只有10000个url,但我的爬虫在Map-reduce作业中的抓取阶段停留在90%左右。它可以很好地运行5000个urls。有没有我可能遗漏的配置?
发布于 2017-08-19 13:59:58
转到MapReduce UI并检查获取阶段的日志。它们可能包含了出了什么问题的线索。
https://stackoverflow.com/questions/45755637
相似问题