首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BingBot & BaiduSpider不尊重robots.txt

BingBot & BaiduSpider不尊重robots.txt
EN

Stack Overflow用户
提问于 2012-07-10 23:10:41
回答 1查看 3.2K关注 0票数 6

当我的CPU使用量突然超过400%,因为机器人淹没了我的网站,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如"www.example.com/":

代码语言:javascript
复制
User-agent: *
Disallow: /

现在Google尊重这个文件,并且在我的Google日志文件中不再出现。然而,BingBot & BaiduSpider仍然出现在我的日志中(而且非常丰富)。

由于我的CPU使用量大幅增加&而且我的主机提供商即将挂起我的帐户,我首先删除了我的所有页面(万一有一个讨厌的脚本),上传干净的页面,通过.htaccess中的IP地址阻塞所有的机器人,然后创建robots.txt文件。

我到处搜索以确认我做了正确的步骤(还没有在.htaccess中尝试“.htaccess”选项)。

有人能证实我所做的事应该做这份工作吗?(自从我开始这项工作以来,我的CPU使用量在6天内下降到120%,但至少阻断IP地址应该会将CPU使用率降低到我通常的5-10%)。

EN

回答 1

Stack Overflow用户

发布于 2014-04-01 11:16:16

如果这些是来自宾博特和拜黄昏的合法蜘蛛,那么它们都应该按照给定的方式尊重你的robots.txt文件。但是,如果这些文件以前已经被索引过,那么它们需要花费一些时间才能拿起它并开始对其进行操作--这可能就是这里的情况。

它不适用于这种情况,但应该注意的是,贝多斯皮德对robots.txt标准的解释与其他主流机器人略有不同(即。在某些方面。例如,虽然标准将Disallow:记录上的URL路径简单地定义为前缀,但贝多斯皮德将只匹配整个目录/路径名称。当给出指令http://example.com/private/时,Googlebot将与URL Disallow: /priv相匹配,而Disallow: /priv则不会匹配。

参考资料:

english.html

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11423333

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档