问如何在没有robots.txt的情况下阻止机器人
EN

Stack Overflow用户

提问于 2012-05-02 14:45:09

回答 1查看 212关注 0票数 1

正如我们所知道的，robots.txt帮助我们避免网络爬虫/机器人对某些网页/部分进行索引。但是使用这种方法有一定的缺点: 1.网络爬虫可能不会监听robots.txt文件；2.你将你想要保护的文件夹暴露给每个人；

还有另一种方法可以阻止你想要保护的文件夹免受爬虫的攻击吗？请记住，可能需要从浏览器(如/admin)访问这些文件夹。

发布于 2012-05-02 14:47:15

检查请求的User-Agent报头，如果报头包含机器人的名称，则发出403。这将阻止所有诚实的机器人，但不会阻止不诚实的机器人。但话又说回来，如果机器人真的诚实，它会服从robots.txt。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10408943

复制

相似问题

问如何在没有robots.txt的情况下阻止机器人EN