文章/答案/技术大牛

发布

社区首页 >问答首页 >Python Scrapy - IP网络掩蔽

问Python Scrapy - IP网络掩蔽
EN

Stack Overflow用户

提问于 2014-01-29 17:03:15

回答 1查看 1.4K关注 0票数 1

我试着刮example.com，但是在爬了100页之后，网站被封锁了。

我该怎么纠正呢？

AWS是否有助于避免阻塞？

python

web-scraping

scrapy

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-29 17:09:07

参见关于刮伤faq页面的说明

避免被禁止，一些网站实施了某些措施，以防止机器人爬行，具有不同程度的复杂程度。绕过这些措施既困难又棘手，有时可能需要特殊的基础设施。如有疑问，请考虑与商业支持联系。在处理这类站点时，请记住以下几点：

将用户代理从浏览器中的知名用户池中轮换出来(google来获取它们的列表)
禁用cookies (请参阅COOKIES_ENABLED)，因为有些站点可能使用cookie来发现bot行为
使用下载延迟(2或更高)。请参见DOWNLOAD_DELAY设置。如果可能的话，使用Google缓存来获取页面，而不是直接访问站点。
使用一个旋转的IP池。例如，免费Tor项目或像ProxyMesh这样的付费服务
使用一个高度分布式的下载器，避免内部禁止，所以您可以只专注于解析干净的页面。这种下载器的一个例子是Crawlera。

如果你仍然无法阻止你的机器人被禁止，考虑联系商业支持。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21437718

复制

相似问题

问Python Scrapy - IP网络掩蔽
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scrapy - IP网络掩蔽EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python Scrapy - IP网络掩蔽
EN