文章/答案/技术大牛

发布

社区首页 >问答首页 >使用wget抓取网站并限制抓取的链接总数

问使用wget抓取网站并限制抓取的链接总数
EN

Stack Overflow用户

提问于 2011-02-12 03:25:43

回答 2查看 5.5K关注 0票数 3

我想通过使用wget工具来学习更多关于爬虫的知识。我有兴趣爬行我的部门的网站，并找到该网站上的前100个链接。到目前为止，下面的命令就是我所拥有的。如何限制爬虫在100个链接后停止？

wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"

bash

scripting

web-crawler

wget

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-02-12 06:28:36

你不能。wget不支持这个，所以如果你想要这样的东西，你必须自己写一个工具。

您可以获取主文件，手动解析链接，然后一个接一个地获取，限制为100个项目。但这并不是wget支持的东西。

你也可以看看用于网站抓取的HTTrack，它有相当多的额外选项：http://www.httrack.com/

票数 2

Stack Overflow用户

发布于 2016-07-07 01:03:41

创建一个先进先出文件(mknod /tmp/

p)，然后在子文件中执行一次wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe
in /tmp/httpipe
parse父命令:逐行读取=~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
count pipe

=~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1

count

；100行后只关闭文件，就会中断输出

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4973152

复制

相似问题

问使用wget抓取网站并限制抓取的链接总数
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用wget抓取网站并限制抓取的链接总数EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用wget抓取网站并限制抓取的链接总数
EN