首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求限制?

如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求限制?
EN

Stack Overflow用户
提问于 2016-09-16 03:36:56
回答 1查看 220关注 0票数 1

我正在为一个客户建立一个亚马逊附属网站,使用亚马逊产品API从他们的目录中获取数据。

亚马逊有每秒1次的请求限制。

谷歌允许通过他们的网站管理员工具配置googlebot的爬虫速度,所以他们没有问题。

我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制?

EN

回答 1

Stack Overflow用户

发布于 2016-09-16 03:45:49

PHP

如果你想学习PHP的方法,请关注我的answer on php redirect url with og metatag (open graph)

robots.txt

我会使用robots.txt文件,因为它相当简单,而且节省时间。一般来说,所有的机器人都尊重并遵守这个文件中的规则。使用以下规则创建一个名为robots.txt (类型: text/plain)的文件

代码语言:javascript
复制
User-agent: * 
Disallow: /path/to/dir/

Asterisk *是一个通配符,表示每个用户代理。

代码语言:javascript
复制
Disallow: /path/to/dir/

Disallow规则定义了您希望机器人不要爬行的路径。不同的用户代理可以有多条线路。

代码语言:javascript
复制
User-agent: Googlebot
Disallow: /path1/

User-agent: Facebookhit
Disallow: /path2/

上面将允许访问Googlebot/path2/,但不允许访问Facebookhit,反之亦然。你可以阅读更多here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39519041

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档