文章/答案/技术大牛

发布

社区首页 >问答首页 >如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

问如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？
EN

Stack Overflow用户

提问于 2016-09-16 03:36:56

回答 1查看 220关注 0票数 1

我正在为一个客户建立一个亚马逊附属网站，使用亚马逊产品API从他们的目录中获取数据。

亚马逊有每秒1次的请求限制。

谷歌允许通过他们的网站管理员工具配置googlebot的爬虫速度，所以他们没有问题。

我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

php

回答 1

Stack Overflow用户

发布于 2016-09-16 03:45:49

PHP

如果你想学习PHP的方法，请关注我的answer on php redirect url with og metatag (open graph)。

robots.txt

我会使用robots.txt文件，因为它相当简单，而且节省时间。一般来说，所有的机器人都尊重并遵守这个文件中的规则。使用以下规则创建一个名为robots.txt (类型: text/plain)的文件

User-agent: * 
Disallow: /path/to/dir/

Asterisk *是一个通配符，表示每个用户代理。

Disallow: /path/to/dir/

Disallow规则定义了您希望机器人不要爬行的路径。不同的用户代理可以有多条线路。

User-agent: Googlebot
Disallow: /path1/

User-agent: Facebookhit
Disallow: /path2/

上面将允许访问Googlebot的/path2/，但不允许访问Facebookhit，反之亦然。你可以阅读更多here

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39519041

复制

相似问题

问如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？
EN