我在我的网站上有一个免责声明,在一个会话中显示一次。一旦点击,你将被允许进入某个部分,它将在你的会话中被记住,这样它就不会再次困扰你。
问题是,我根本不想让爬虫遇到免责声明。它所做的就是忽略了Googlebot用户代理。
但是还有许多其他的爬虫,我希望他们也忽略这一点。
这是唯一的解决方案吗?通过爬虫的UA来识别爬虫?如何检测cookie -如果我没有cookie,这意味着它是一个爬虫?
谢谢
发布于 2011-12-14 04:50:24
您可能无论如何都不想依赖cookie,因为用户可以在常规浏览器上禁用cookie。
将UA用于您的目的,只需获取大型爬虫,时不时地更新。
发布于 2011-12-14 04:42:26
在站点的根目录下创建一个名为robots.txt的文件。
在其中,放入以下内容:
User-agent: *
Allow: /
Disallow: /path/to/disclaimer您可以找到有关robots.txt on the web的更多信息。
发布于 2011-12-14 04:59:55
您可以通过向页面添加"noindex“元标记来让爬虫查看免责声明页面,但不对其进行索引。这可能是您问题的部分解决方案。
<html>
<head>
<meta name="robots" content="noindex" />
<title>Disclaimer</title>
</head>
<body>
...
</body>
</html>这样,爬虫将能够访问免责声明背后的页面,但它们实际上不会基于免责声明页面上的术语进行索引。
https://stackoverflow.com/questions/8495878
复制相似问题