首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch2不恢复爬行

Nutch2不恢复爬行
EN

Stack Overflow用户
提问于 2018-03-02 14:23:32
回答 2查看 140关注 0票数 0

我在带有MongoDB存储的Nutch2.3.1中使用了下面的命令。当它在爬行时,这个过程是通过按CTRL+C来完成的。在那之后,如果我试图运行相同的爬行脚本,它并不是简单的崩溃而没有任何错误。它存在于第二次迭代中。

使用的命令:运行时/本地/bin/爬行urls/ 'crawlDb‘10

输出:

ParserJob: 2018-03-02 19:48:31,时间流逝: 00:00:02 /Users/rajeevprasanna/Desktop/nutch-cassandra/apache-nutch-2.3.1/runtime/local/bin/nutch updatedb -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true 1520000291-27137 -crawlId crawlDb DbUpdaterJob: 2018-03-02 19:48:31 DbUpdaterJob: batchId: 1520000291-27137 DbUpdaterJob: 2018-03-02 19:48:34,时间流逝: 00:00:02跳过索引任务:没有提供SOLR url。2018年3月2日:48:34:2018年:生成一个新的取列表/Users/rajeevprasanna/Desktop/nutch-cassandra/apache-nutch-2.3.1/runtime/local/bin/nutch的迭代2生成-D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true -topN 50000 -noNorm -noFilter -adddays 0 -crawlId crawlDb 1520000314-30627 -adddays: starting在2018-03-02 19:48:34 GeneratorJob:选择最佳得分的网址,以获取.GeneratorJob:启动GeneratorJob:筛选: false GeneratorJob: now : topN: 50000 GeneratorJob:在2018-03-02 19:48:37完成,经过的时间: 00:00:02 GeneratorJob:生成包含0 URL的批处理id: 1520000314-30627生成返回的1(没有创建的新段)转义循环:没有更多的URL现在要获取,Rajeevs-MacBook-Pro:apache-nutch-2.3.1 rajeevprasanna$

EN

回答 2

Stack Overflow用户

发布于 2018-03-04 18:52:00

原因如下所示:“现在不需要再获取URL了”。在web表中没有新的不取的链接。要从头开始恢复,需要删除CrawlDb ( MongoDb中的web表)。

票数 0
EN

Stack Overflow用户

发布于 2018-03-09 13:11:59

这些命令有一个-resume参数,它应该可以工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49071070

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档