我的网站目前正受到垃圾邮件机器人的攻击(例如: 66.249.73.*),这导致了CPU的高使用率。谷歌/必应( Google/Bing )每秒钟爬一个网站是否很常见?
我做了反向查找的I和他们似乎是有效的爬虫使用https://support.google.com/webmasters/answer/80553?hl=en。
因为我屏蔽了一些IP,Google/Bing搜索控制台正在报告错误并损害我的索引。
这个月(四月)已经发生了。这是转诊攻击吗?有可能有人在欺骗IP吗?我能做些什么来限制爬行的数量吗?
我目前正在为爬虫创建服务器端呈现,但是对于刚刚开始随机发生的事情来说,这是一个乏味的任务。
发布于 2019-04-30 20:07:03
Google使用了很多IP范围。从你发布的那个,他们的任何IP在66.249.64.0 - 66.249.95.255范围内,并将自己定位为Googlebot应该是一个合法的机器人。
爬行率的增长有很多原因,也许你的一些内容是病毒传播的,或者他们的机器人想要更快地更新你网站上的数据。这通常是件好事。
我绝不会阻止谷歌的IP范围,除非你不希望访问者到达你的网站。如果你的资源被锤打,你可以做的是为Robots.txt中的其他搜索机器人指定一个爬行延迟。
谷歌不支持爬行延迟指令。然而,Google确实支持在Google搜索控制台中定义爬行率。
发布于 2019-05-01 01:21:55
如果来自请求的IP地址被识别为Google/Bing的IP地址,那么您不应该阻止它们,因为这会影响您的SEO。与其阻止它们,不如在它们各自的网站管理员工具中调整爬行率
谷歌和必应都提供了调整爬行率的能力,具有很好的灵活性。
在Yandex爬行站点的情况下,您可以添加一个Crawl-delay指令来减缓yandex的爬行速度。
如果您认为存在影响您的服务器的垃圾邮件机器人(可以通过观察服务器日志来确定),请考虑使用将阻止可疑IP地址的Web应用程序防火墙。Cloudflare有能力允许已知的机器人,并根据它计算的威胁等级阻止可疑的机器人。此外,您还可以阻止某些用户代理爬行网站。
https://webmasters.stackexchange.com/questions/122575
复制相似问题