我想抓取一个网站,但我得到了下一个错误:
'<head>\n<title>Access Denied</title>\n</head>'我只是在控制台中尝试:
scrapy shell https://www.zara.com/es/en/
response.css("head").get()

我做错了什么?与User-Agent有关?网站有没有防爬虫的方法?如何抓取这个网站?
发布于 2020-07-14 18:52:21
在settings.py中设置USER_AGENT = 'zara (+http://www.yourdomain.com)'。解决了问题。如果你喜欢,你也可以放入你自己的用户代理。
https://stackoverflow.com/questions/62892196
复制相似问题