首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python Scrapy - IP网络掩蔽

Python Scrapy - IP网络掩蔽
EN

Stack Overflow用户
提问于 2014-01-29 17:03:15
回答 1查看 1.4K关注 0票数 1

我试着刮example.com,但是在爬了100页之后,网站被封锁了。

我该怎么纠正呢?

AWS是否有助于避免阻塞?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-29 17:09:07

参见关于刮伤faq页面的说明

避免被禁止,一些网站实施了某些措施,以防止机器人爬行,具有不同程度的复杂程度。绕过这些措施既困难又棘手,有时可能需要特殊的基础设施。如有疑问,请考虑与商业支持联系。 在处理这类站点时,请记住以下几点:

  • 将用户代理从浏览器中的知名用户池中轮换出来(google来获取它们的列表)
  • 禁用cookies (请参阅COOKIES_ENABLED),因为有些站点可能使用cookie来发现bot行为
  • 使用下载延迟(2或更高)。请参见DOWNLOAD_DELAY设置。如果可能的话,使用Google缓存来获取页面,而不是直接访问站点。
  • 使用一个旋转的IP池。例如,免费Tor项目或像ProxyMesh这样的付费服务
  • 使用一个高度分布式的下载器,避免内部禁止,所以您可以只专注于解析干净的页面。这种下载器的一个例子是Crawlera。

如果你仍然无法阻止你的机器人被禁止,考虑联系商业支持。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21437718

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档