首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何让爬虫忽略我的免责声明

如何让爬虫忽略我的免责声明
EN

Stack Overflow用户
提问于 2011-12-14 04:40:16
回答 3查看 245关注 0票数 1

我在我的网站上有一个免责声明,在一个会话中显示一次。一旦点击,你将被允许进入某个部分,它将在你的会话中被记住,这样它就不会再次困扰你。

问题是,我根本不想让爬虫遇到免责声明。它所做的就是忽略了Googlebot用户代理。

但是还有许多其他的爬虫,我希望他们也忽略这一点。

这是唯一的解决方案吗?通过爬虫的UA来识别爬虫?如何检测cookie -如果我没有cookie,这意味着它是一个爬虫?

谢谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-12-14 04:50:24

您可能无论如何都不想依赖cookie,因为用户可以在常规浏览器上禁用cookie。

将UA用于您的目的,只需获取大型爬虫,时不时地更新。

票数 1
EN

Stack Overflow用户

发布于 2011-12-14 04:42:26

在站点的根目录下创建一个名为robots.txt的文件。

在其中,放入以下内容:

代码语言:javascript
复制
User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt on the web的更多信息。

票数 0
EN

Stack Overflow用户

发布于 2011-12-14 04:59:55

您可以通过向页面添加"noindex“元标记来让爬虫查看免责声明页面,但不对其进行索引。这可能是您问题的部分解决方案。

代码语言:javascript
复制
<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

这样,爬虫将能够访问免责声明背后的页面,但它们实际上不会基于免责声明页面上的术语进行索引。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8495878

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档