首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch crawl命令

Nutch crawl命令
EN

Stack Overflow用户
提问于 2013-10-25 22:07:44
回答 1查看 897关注 0票数 1

对于Nutch 2.2.1,我知道有两个爬行命令- bin/nutch (step by step),bin/crawl (全部在一起)

我知道如何为bin/crawl命令指定爬网ID。同样,如何为bin/nutch命令指定爬网ID?

我问的原因是,我使用all-in-one crawl command "bin/crawl"运行了一个大型爬网作业,指定了一个爬网ID,它在Solr中索引第9次爬行迭代时崩溃了。现在,我只想对中断的第9次迭代运行一步"bin/nutch solrindex"命令,以完成solr索引。如何在"bin/nutch solrindex“命令中指定crawlID?语法是什么?

我将所有的抓取数据存储在一个HBase表"webpage_test“中。

EN

回答 1

Stack Overflow用户

发布于 2013-10-26 00:13:25

您可以运行bin/nutch solrindex并在参数中传递crawl和segments文件夹。

Nutch将索引所有文档,但不会创建重复的文档,因为它将使用ID字段来确定它们是否已被插入。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19592098

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档