正如我们所知道的,robots.txt帮助我们避免网络爬虫/机器人对某些网页/部分进行索引。但是使用这种方法有一定的缺点: 1.网络爬虫可能不会监听robots.txt文件;2.你将你想要保护的文件夹暴露给每个人;
还有另一种方法可以阻止你想要保护的文件夹免受爬虫的攻击吗?请记住,可能需要从浏览器(如/admin)访问这些文件夹。
发布于 2012-05-02 14:47:15
检查请求的User-Agent报头,如果报头包含机器人的名称,则发出403。这将阻止所有诚实的机器人,但不会阻止不诚实的机器人。但话又说回来,如果机器人真的诚实,它会服从robots.txt。
https://stackoverflow.com/questions/10408943
复制相似问题