文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取爬虫的要求被阻止了。使用请求库的请求可以正常访问。理由是什么呢？

问抓取爬虫的要求被阻止了。使用请求库的请求可以正常访问。理由是什么呢？
EN

Stack Overflow用户

提问于 2019-11-26 09:41:24

回答 1查看 166关注 0票数 1

使用scrapy框架，我制定了以下策略：

随机用户代理
代理IP池
最多15秒下载间隔，以及随机请求间隔
禁用cookie
将并发设置为8

但是它不起作用，因为第一个请求的响应代码是500，其他请求的响应代码是500。

然后我尝试使用requests

使用相同的代理池，
随机用户代理
并发性为12

使用请求库是正常的。它的响应代码是200。

这是什么原因？

python

scrapy

python-requests

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-26 09:47:37

有许多客户端库/ web产品可以阻止来自web抓取库的收入请求。

通常，这些工具检查由这些刮板库发送的通用请求头，因此，重复检查它们的存在可能是有用的。

网站如何阻止网络爬虫

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59047912

复制

相似问题

问抓取爬虫的要求被阻止了。使用请求库的请求可以正常访问。理由是什么呢？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬虫的要求被阻止了。使用请求库的请求可以正常访问。理由是什么呢？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取爬虫的要求被阻止了。使用请求库的请求可以正常访问。理由是什么呢？
EN