首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nutch crawl不使用seed.txt中的所有条目

nutch crawl不使用seed.txt中的所有条目
EN

Stack Overflow用户
提问于 2014-06-06 22:39:11
回答 1查看 474关注 0票数 0

我正在使用 apache-nutch-1.6,我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少?没有错误信息。就像我删除一个站点一样,另一个站点会被深度爬网,无论另一个站点是否存在,这个站点都会被爬网,而从其他站点中,只有我相信的顶级站点....

EN

回答 1

Stack Overflow用户

发布于 2014-06-13 13:22:23

正确配置:

代码语言:javascript
复制
bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

深度: nutch将爬升到这个深度。

topN:在每个级别,nutch都会抓取这个数量的url

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24084490

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档