我很难理解crawl-delay: 1的含义,如果它没有被忽略,并且实际上被一个给定的网络爬虫所解释。
由于
10的爬行延迟,爬虫应该:
这意味着爬虫每分钟最多可以爬行6页(60秒除以10),每小时360页,或每天8 640页。爬行延迟→越小,允许的爬行越多。
从这点我了解到,每秒爬行一个网页,再延迟一秒钟,每分钟爬行30个网页。
然而,在相应的评论中,我从Stephen那里了解到,它将接近或接近60爬行(“获取”)。
60 crawlings还是at most 30爬虫?
换句话说,
发布于 2020-03-01 07:57:42
爬行-延迟是用来阻止机器人爬行网页或网站非常频繁。然而,它应该使用当你的网站有多少页,是一个大的网站。爬行延迟可以用于社交书签网站、twitter、facebook等经常更新的网站。
User-agent: Googlebot
Crawl-delay: 120它的意思是Googlebot应该延迟120秒,而不是频繁地爬行网页。
https://webmasters.stackexchange.com/questions/128101
复制相似问题