在站点上运行爬虫时,我会多次收到以下错误消息:
<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>在不同的站点上运行爬虫时,我不会发现这个错误,而且它试图访问的页面我可以通过浏览器或curl访问。因此,我想知道什么情况会导致这个错误?
要澄清的是,完全错误的意思是:
2016-11-17 20:59:38 [scrapy] ERROR: Error downloading <GET http://www.peets.com/gifts/featured-gifts/holiday-gifts/sheng-puer-tea-50.html>: [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]有许多不同的urls会产生类似的错误,同样,如果我多次运行它,它也不会总是失败。因此,我不清楚ConnectionDone: Connection was closed cleanly在问题所在方面应该暗示什么。
发布于 2017-05-17 07:53:11
今天我也犯了同样的错误。我认为那些网站有Crawler的预防措施。如果我加上:
USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0' 在settings.py中,它解决了错误。
https://stackoverflow.com/questions/40665120
复制相似问题