首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用wget抓取网站并限制抓取的链接总数

使用wget抓取网站并限制抓取的链接总数
EN

Stack Overflow用户
提问于 2011-02-12 03:25:43
回答 2查看 5.5K关注 0票数 3

我想通过使用wget工具来学习更多关于爬虫的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何限制爬虫在100个链接后停止?

代码语言:javascript
复制
wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-12 06:28:36

你不能。wget不支持这个,所以如果你想要这样的东西,你必须自己写一个工具。

您可以获取主文件,手动解析链接,然后一个接一个地获取,限制为100个项目。但这并不是wget支持的东西。

你也可以看看用于网站抓取的HTTrack,它有相当多的额外选项:http://www.httrack.com/

票数 2
EN

Stack Overflow用户

发布于 2016-07-07 01:03:41

创建一个先进先出文件(mknod /tmp/

  1. p),然后在子文件中执行一次wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe
  2. in /tmp/httpipe
  3. parse父命令:逐行读取=~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
  4. count pipe

=~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1

  • count
  1. ;100行后只关闭文件,就会中断输出

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4973152

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档