我想通过使用wget工具来学习更多关于爬虫的知识。我有兴趣爬行我的部门的网站,并找到该网站上的前100个链接。到目前为止,下面的命令就是我所拥有的。如何限制爬虫在100个链接后停止?
wget -r -o output.txt -l 0 -t 1 --spider -w 5 -A html -e robots=on "http://www.example.com"发布于 2011-02-12 06:28:36
你不能。wget不支持这个,所以如果你想要这样的东西,你必须自己写一个工具。
您可以获取主文件,手动解析链接,然后一个接一个地获取,限制为100个项目。但这并不是wget支持的东西。
你也可以看看用于网站抓取的HTTrack,它有相当多的额外选项:http://www.httrack.com/
发布于 2016-07-07 01:03:41
创建一个先进先出文件(mknod /tmp/
wget --spider -r -l 1 http://myurl --output-file /tmp/httppipe/tmp/httpipe=~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1 =~ m{^\-\-\d\d:\d\d:\d\d\-\- http://$self->{http_server}:$self->{tcport}/(.*)$}, print $1
https://stackoverflow.com/questions/4973152
复制相似问题