文章/答案/技术大牛

发布

社区首页 >问答首页 >为友好的爬行提供睡眠

问为友好的爬行提供睡眠
EN

Stack Overflow用户

提问于 2014-09-18 10:07:39

回答 2查看 4.9K关注 0票数 8

如何从urls列表中下载并在每次下载之间启动暂停？

我在url.txt中有一个urls列表。

http://manuals.info.apple.com/cs_CZ/Apple_TV_2nd_gen_Setup_Guide_cz.pdf
http://manuals.info.apple.com/cs_CZ/apple_tv_3rd_gen_setup_cz.pdf
http://manuals.info.apple.com/cs_CZ/imac_late2012_quickstart_cz.pdf
http://manuals.info.apple.com/cs_CZ/ipad_4th-gen-ipad-mini_info_cz.pdf
http://manuals.info.apple.com/cs_CZ/iPad_iOS4_Important_Product_Info_CZ.pdf
http://manuals.info.apple.com/cs_CZ/iPad_iOS4_Uzivatelska_prirucka.pdf
http://manuals.info.apple.com/cs_CZ/ipad_ios5_uzivatelska_prirucka.pdf
http://manuals.info.apple.com/cs_CZ/ipad_ios6_user_guide_cz.pdf
http://manuals.info.apple.com/cs_CZ/ipad_uzivatelska_prirucka.pdf

我尝试了wget -i url.txt，但是过了一段时间它就停止了，因为服务器正在检测到不友好的爬行。

如何在每个url之间放置停顿？

我怎么用刮痕来做呢？

url

web-scraping

scrapy

wget

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-09-18 10:16:57

wget

wget --wait=10 --random-wait --input-file=url.txt

scrapy

scrapy crawl yourbot -s DOWNLOAD_DELAY=10 -s RANDOMIZE_DOWNLOAD_DELAY=1

票数 13

Stack Overflow用户

发布于 2014-09-18 10:16:34

您可以使用-w或--等待选项在每个请求之间添加一些延迟。

     -w seconds or --wait=seconds

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25909799

复制

相似问题

问为友好的爬行提供睡眠
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为友好的爬行提供睡眠EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为友好的爬行提供睡眠
EN