我想重定向蜘蛛从访问我的博客。我正在寻找一个解决方案,可以嵌入到网页HTML,以便蜘蛛被重定向离开之前,影响我的页面访问量。比如说javascript,爬虫的IP地址,以及爬虫的引用url,这是可能的吗?
发布于 2013-12-13 05:42:24
单独使用Javascript是不可能的,使用PHP或Javascript和PHP的组合是可能的,但这通常是由.htaccess文件处理的:
order allow,deny
deny from 123.45.6.7
deny from 012.34.5.
allow from all发布于 2013-12-13 05:51:34
你是说网络爬虫吗?如果是这样,禁用这些也会减少你的数量,因为没有人会访问你的网站,因为如果搜索引擎不能用蜘蛛抓取你的网站,那么它就不会被搜索引擎索引。
如果你想阻止爬虫访问你网站的某些部分,使用名为robots.txt的东西,我会提供一篇关于它的维基百科文章,你可以进一步研究如何使用它。
我建议不要禁止抓取你网站的所有部分,只是你不想被抓取的部分。
http://en.wikipedia.org/wiki/Robots_exclusion_standard
发布于 2013-12-13 07:10:22
如果你的访问计数器是用javascript (像Google Analytics)组成的,这不是问题,因为爬虫不会执行javascript。
如果访问计数器是在服务器端创建的,只需在访问计数器之前插入类似以下内容:
if(strpos($_SERVER['HTTP_USER_AGENT'],'bot') !== false){
die();
}https://stackoverflow.com/questions/20554840
复制相似问题