最近我在我的网站上看到了一个重要的googlebot爬行。我们说的是每秒10到20次请求。它看起来像googlebot,而且看起来是合法的googlebot IP,但是请求中的查询仿冒被编码为韩国和中国的字符,似乎可以翻译成垃圾邮件。
我能够通过更新我的robots.txt来减少爬行。
问,谷歌机器人是如何进入这种状态的?施虐者如何能够创建这些垃圾邮件查询,从而将googlebot请求放大到我的站点?这是爬虫中常见的漏洞吗?它似乎可以轻松地再次作为一个DDoS在一个不同的网站或路线。
发布于 2023-04-07 02:02:29
我想谷歌认为你是一个拥有所有这些新页面的大主机,并且能够处理速度,因为你有1000 s的页面,谷歌不知道?在其他情况下,这将是一件好事。
您可以告诉googlebot在/at中爬行站点的速度。
https://www.google.com/webmasters/tools/settings
这里有文档:https://support.google.com/webmasters/answer/48620?hl=en。
Google有复杂的算法来确定站点的最佳爬行速度。我们的目标是在每次访问时尽可能多地从您的站点抓取页面,而不会占用您服务器的带宽。如果Google每秒向您的站点发出太多请求,并且减慢您的服务器速度,那么您可以限制Google爬行站点的速度。
或者,一个429状态代码,“太多的请求”,可以发送时,网站正处于压力。用一个解决方案解决两个问题。
据我所知,有一个分叉https://serverfault.com/a/877762/89279或apache mod_evasive在DDos期间发送429而不是403。
https://webmasters.stackexchange.com/questions/142045
复制相似问题