首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Solr 5.0和Nutch 1.10

Solr 5.0和Nutch 1.10
EN

Stack Overflow用户
提问于 2015-06-03 21:27:22
回答 1查看 420关注 0票数 0

我在windows server 2008 R2上使用solr5.0,nutch1.10和cygwin。我发出的命令如下:

B/爬网-D urls/ b/urls爬网/2

据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这比预期的要少得多。此外,它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时:

bin/nutch solrindex段爬网/crawldb -linkdb爬网/linkdb爬网/ http://127.0.0.1:8983/solr/thetest /*

然后执行搜索,那么我总共只得到了20个url。有人能帮上忙吗。我需要做一个更深的深度爬行。

EN

回答 1

Stack Overflow用户

发布于 2016-03-22 21:47:22

您可以增加轮数,这将为您获取更多的urls。您可以在./logs文件夹中的hadoop.log文件中查看每轮获取的urls数量。

你可以参考这个link

用法: crawl -i|--index -i|--index将爬网结果放入配置的索引器-D传递给Nutch调用种子目录的Java属性,在其中查找保存爬网/链接/段目录的种子文件爬网目录Num舍入运行此爬网的轮数例如: bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ TestCrawl/ 2

代码语言:javascript
复制
 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30621512

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档