首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在heroku上使用网络爬虫的经验

在heroku上使用网络爬虫的经验
EN

Stack Overflow用户
提问于 2013-05-09 22:19:35
回答 2查看 2.2K关注 0票数 4

是否有人有使用海葵等宝石编写网页爬虫的经验,并将它们部署到heroku供您自己使用?这样一个持续运行的程序会违反heroku的TOA/TOS吗?

EN

回答 2

Stack Overflow用户

发布于 2015-11-18 22:12:10

再也不会了。

Heroku可接受的使用策略状态在禁止行动第21页中,爬虫必须

  • 通过唯一的用户代理来标识自己
  • 服从robots.txt (包括爬行延迟指令)
  • 从第20页起,要求不使用您的爬虫作为“开放代理”。

NB! --一天工作时间不得超过18小时。

票数 2
EN

Stack Overflow用户

发布于 2013-05-09 23:22:28

我没有在Heroku使用网络爬虫的任何经验(实际上我有兴趣阅读这方面的内容!)但以下是我的观点:

  1. 这是它的违禁内容。非法活动是禁止的(杜赫),由于一些网站“禁止”网络爬虫和屏幕刮刀(如IMDb),这可以被认为是非法的。但让我们暂时忽略这一点。
  2. 这是它的禁止行动。禁止下列行为: 数据挖掘任何网站属性(包括Heroku),以查找电子邮件地址或其他用户帐户信息;
  3. 这些是它的使用限制:
代码语言:javascript
复制
- Network Bandwidth: 2TB/month - Soft
- Shared DB processing: Max 200msec per second CPU time - Soft
- Dyno RAM usage: 512MB - Hard
- Slug Size: 200MB - Hard
- Request Length: 30 seconds - Hard

  1. 在它的TOS点2.5.中,解释了: 重复超过硬或软使用限制可能导致您的帐户终止。

重点是我的。Heroku给每个应用程序750个dyno小时。只要你不滥用Heroku的服务,也不使用它来收集个人信息,我相信你是清楚的。我建议:

  1. 以某种方式限制你的网络爬虫。正如您应该限制API请求的速率一样,您应该有共同的礼貌限制爬虫的速度。
  2. 注意你的工作时间。你可以这样做,这里
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16472083

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档