文章/答案/技术大牛

发布

社区首页 >问答首页 >Nutch2不恢复爬行

问Nutch2不恢复爬行
EN

Stack Overflow用户

提问于 2018-03-02 14:23:32

回答 2查看 140关注 0票数 0

我在带有MongoDB存储的Nutch2.3.1中使用了下面的命令。当它在爬行时，这个过程是通过按CTRL+C来完成的。在那之后，如果我试图运行相同的爬行脚本，它并不是简单的崩溃而没有任何错误。它存在于第二次迭代中。

使用的命令:运行时/本地/bin/爬行urls/ 'crawlDb‘10

输出：

ParserJob: 2018-03-02 19:48:31，时间流逝: 00:00:02 /Users/rajeevprasanna/Desktop/nutch-cassandra/apache-nutch-2.3.1/runtime/local/bin/nutch updatedb -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true 1520000291-27137 -crawlId crawlDb DbUpdaterJob: 2018-03-02 19:48:31 DbUpdaterJob: batchId: 1520000291-27137 DbUpdaterJob: 2018-03-02 19:48:34，时间流逝: 00:00:02跳过索引任务:没有提供SOLR url。2018年3月2日:48:34:2018年:生成一个新的取列表/Users/rajeevprasanna/Desktop/nutch-cassandra/apache-nutch-2.3.1/runtime/local/bin/nutch的迭代2生成-D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true -topN 50000 -noNorm -noFilter -adddays 0 -crawlId crawlDb 1520000314-30627 -adddays: starting在2018-03-02 19:48:34 GeneratorJob:选择最佳得分的网址，以获取.GeneratorJob:启动GeneratorJob:筛选: false GeneratorJob: now : topN: 50000 GeneratorJob:在2018-03-02 19:48:37完成，经过的时间: 00:00:02 GeneratorJob:生成包含0 URL的批处理id: 1520000314-30627生成返回的1(没有创建的新段)转义循环:没有更多的URL现在要获取，Rajeevs-MacBook-Pro:apache-nutch-2.3.1 rajeevprasanna$

web-crawler

nutch

回答 2

Stack Overflow用户

发布于 2018-03-04 18:52:00

原因如下所示：“现在不需要再获取URL了”。在web表中没有新的不取的链接。要从头开始恢复，需要删除CrawlDb ( MongoDb中的web表)。

票数 0

Stack Overflow用户

发布于 2018-03-09 13:11:59

这些命令有一个-resume参数，它应该可以工作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49071070

复制

相似问题

问Nutch2不恢复爬行
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch2不恢复爬行EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch2不恢复爬行
EN