我正在使用 apache-nutch-1.6,我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少?没有错误信息。就像我删除一个站点一样,另一个站点会被深度爬网,无论另一个站点是否存在,这个站点都会被爬网,而从其他站点中,只有我相信的顶级站点....
发布于 2014-06-13 13:22:23
正确配置:
bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000深度: nutch将爬升到这个深度。
topN:在每个级别,nutch都会抓取这个数量的url
https://stackoverflow.com/questions/24084490
复制相似问题