文章/答案/技术大牛

发布

社区首页 >问答首页 >BingBot & BaiduSpider不尊重robots.txt

问BingBot & BaiduSpider不尊重robots.txt
EN

Stack Overflow用户

提问于 2012-07-10 23:10:41

回答 1查看 3.2K关注 0票数 6

当我的CPU使用量突然超过400%，因为机器人淹没了我的网站，我创建了一个robots.txt，如下所示，并将文件放在我的根目录中，例如"www.example.com/"：

User-agent: *
Disallow: /

现在Google尊重这个文件，并且在我的Google日志文件中不再出现。然而，BingBot & BaiduSpider仍然出现在我的日志中(而且非常丰富)。

由于我的CPU使用量大幅增加&而且我的主机提供商即将挂起我的帐户，我首先删除了我的所有页面(万一有一个讨厌的脚本)，上传干净的页面，通过.htaccess中的IP地址阻塞所有的机器人，然后创建robots.txt文件。

我到处搜索以确认我做了正确的步骤(还没有在.htaccess中尝试“.htaccess”选项)。

有人能证实我所做的事应该做这份工作吗？(自从我开始这项工作以来，我的CPU使用量在6天内下降到120%，但至少阻断IP地址应该会将CPU使用率降低到我通常的5-10%)。

bots

cpu-usage

robots.txt

回答 1

Stack Overflow用户

发布于 2014-04-01 11:16:16

如果这些是来自宾博特和拜黄昏的合法蜘蛛，那么它们都应该按照给定的方式尊重你的robots.txt文件。但是，如果这些文件以前已经被索引过，那么它们需要花费一些时间才能拿起它并开始对其进行操作--这可能就是这里的情况。

它不适用于这种情况，但应该注意的是，贝多斯皮德对robots.txt标准的解释与其他主流机器人略有不同(即。在某些方面。例如，虽然标准将Disallow:记录上的URL路径简单地定义为前缀，但贝多斯皮德将只匹配整个目录/路径名称。当给出指令http://example.com/private/时，Googlebot将与URL Disallow: /priv相匹配，而Disallow: /priv则不会匹配。

参考资料：

english.html

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11423333

复制

相似问题

问BingBot & BaiduSpider不尊重robots.txt
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BingBot & BaiduSpider不尊重robots.txtEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BingBot & BaiduSpider不尊重robots.txt
EN