我正在为一个客户建立一个亚马逊附属网站,使用亚马逊产品API从他们的目录中获取数据。
亚马逊有每秒1次的请求限制。
谷歌允许通过他们的网站管理员工具配置googlebot的爬虫速度,所以他们没有问题。
我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制?
发布于 2016-09-16 03:45:49
PHP
如果你想学习PHP的方法,请关注我的answer on php redirect url with og metatag (open graph)。
robots.txt
我会使用robots.txt文件,因为它相当简单,而且节省时间。一般来说,所有的机器人都尊重并遵守这个文件中的规则。使用以下规则创建一个名为robots.txt (类型: text/plain)的文件
User-agent: *
Disallow: /path/to/dir/Asterisk *是一个通配符,表示每个用户代理。
Disallow: /path/to/dir/Disallow规则定义了您希望机器人不要爬行的路径。不同的用户代理可以有多条线路。
User-agent: Googlebot
Disallow: /path1/
User-agent: Facebookhit
Disallow: /path2/上面将允许访问Googlebot的/path2/,但不允许访问Facebookhit,反之亦然。你可以阅读更多here
https://stackoverflow.com/questions/39519041
复制相似问题