问nutch crawl不使用seed.txt中的所有条目
EN

Stack Overflow用户

提问于 2014-06-06 22:39:11

回答 1查看 474关注 0票数 0

我正在使用 apache-nutch-1.6，我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少？没有错误信息。就像我删除一个站点一样，另一个站点会被深度爬网，无论另一个站点是否存在，这个站点都会被爬网，而从其他站点中，只有我相信的顶级站点....

nutch

web-crawler

回答 1

Stack Overflow用户

发布于 2014-06-13 13:22:23

正确配置：

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

深度: nutch将爬升到这个深度。

topN:在每个级别，nutch都会抓取这个数量的url

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24084490

复制

相似问题

问nutch crawl不使用seed.txt中的所有条目
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问nutch crawl不使用seed.txt中的所有条目EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问nutch crawl不使用seed.txt中的所有条目
EN