文章/答案/技术大牛

发布

社区首页 >问答首页 >如何让爬虫忽略我的免责声明

问如何让爬虫忽略我的免责声明
EN

Stack Overflow用户

提问于 2011-12-14 04:40:16

回答 3查看 245关注 0票数 1

我在我的网站上有一个免责声明，在一个会话中显示一次。一旦点击，你将被允许进入某个部分，它将在你的会话中被记住，这样它就不会再次困扰你。

问题是，我根本不想让爬虫遇到免责声明。它所做的就是忽略了Googlebot用户代理。

但是还有许多其他的爬虫，我希望他们也忽略这一点。

这是唯一的解决方案吗？通过爬虫的UA来识别爬虫？如何检测cookie -如果我没有cookie，这意味着它是一个爬虫？

谢谢

asp.net

web-crawler

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-12-14 04:50:24

您可能无论如何都不想依赖cookie，因为用户可以在常规浏览器上禁用cookie。

将UA用于您的目的，只需获取大型爬虫，时不时地更新。

票数 1

Stack Overflow用户

发布于 2011-12-14 04:42:26

在站点的根目录下创建一个名为robots.txt的文件。

在其中，放入以下内容：

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt on the web的更多信息。

票数 0

Stack Overflow用户

发布于 2011-12-14 04:59:55

您可以通过向页面添加"noindex“元标记来让爬虫查看免责声明页面，但不对其进行索引。这可能是您问题的部分解决方案。

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

这样，爬虫将能够访问免责声明背后的页面，但它们实际上不会基于免责声明页面上的术语进行索引。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8495878

复制

相似问题

问如何让爬虫忽略我的免责声明
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何让爬虫忽略我的免责声明EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何让爬虫忽略我的免责声明
EN