我在windows server 2008 R2上使用solr5.0,nutch1.10和cygwin。我发出的命令如下:
B/爬网-D urls/ b/urls爬网/2
据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这比预期的要少得多。此外,它不会在更深的深度爬行。当我发出这个命令将数据传递给Solr时:
bin/nutch solrindex段爬网/crawldb -linkdb爬网/linkdb爬网/ http://127.0.0.1:8983/solr/thetest /*
然后执行搜索,那么我总共只得到了20个url。有人能帮上忙吗。我需要做一个更深的深度爬行。
发布于 2016-03-22 21:47:22
您可以增加轮数,这将为您获取更多的urls。您可以在./logs文件夹中的hadoop.log文件中查看每轮获取的urls数量。
你可以参考这个link
用法: crawl -i|--index -i|--index将爬网结果放入配置的索引器-D传递给Nutch调用种子目录的Java属性,在其中查找保存爬网/链接/段目录的种子文件爬网目录Num舍入运行此爬网的轮数例如: bin/crawl -i -D solr.server.url=http://localhost:8983/solr/ urls/ TestCrawl/ 2
bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2https://stackoverflow.com/questions/30621512
复制相似问题