问Solr 5.0和Nutch 1.10
EN

Stack Overflow用户

提问于 2015-06-03 21:27:22

回答 1查看 420关注 0票数 0

我在windows server 2008 R2上使用solr5.0，nutch1.10和cygwin。我发出的命令如下：

B/爬网-D urls/ b/urls爬网/2

据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这比预期的要少得多。此外，它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时：

bin/nutch solrindex段爬网/crawldb -linkdb爬网/linkdb爬网/ http://127.0.0.1:8983/solr/thetest /*

然后执行搜索，那么我总共只得到了20个url。有人能帮上忙吗。我需要做一个更深的深度爬行。

solr

nutch

回答 1

Stack Overflow用户

发布于 2016-03-22 21:47:22

您可以增加轮数，这将为您获取更多的urls。您可以在./logs文件夹中的hadoop.log文件中查看每轮获取的urls数量。

你可以参考这个link

用法: crawl -i|--index -i|--index将爬网结果放入配置的索引器-D传递给Nutch调用种子目录的Java属性，在其中查找保存爬网/链接/段目录的种子文件爬网目录Num舍入运行此爬网的轮数例如: bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ TestCrawl/ 2

 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30621512

复制

相似问题

问Solr 5.0和Nutch 1.10
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr 5.0和Nutch 1.10EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Solr 5.0和Nutch 1.10
EN