我想阻止在我的网站上收集数据(当然,除了googlebot )。我猜依靠GB的UserAgent是不够强大的(每个机器人都可以伪造它)
我如何仍然验证GoogleBot以避免伪造。
发布于 2011-12-22 14:37:59
官方的方式是使用正向和反向DNS查找的组合;他们无法伪造这一点!
更多信息来自谷歌的网站管理员博客:How to verify Googlebot
告诉网站管理员使用域名系统逐个进行验证似乎是最好的方式。我认为推荐的技术是进行反向DNS查找,验证名称是否在googlebot.com域中,然后使用该googlebot.com名称进行相应的正向DNS->IP查找;例如:主机66.249.66.1 1.66.249.66.in-addr.arpa域名指针crawl-66-249-66-1.googlebot.com。> host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com地址为66.249.66.1
我认为仅仅执行反向DNS查找是不够的,因为欺骗程序可以设置反向DNS指向crawl-a-b-c-d.googlebot.com.
但是,我建议缓存此每IP查找的结果,并仅定期执行它,以免在验证过程中引入太多开销。
发布于 2011-12-22 14:37:57
a post on the official Google Webmaster Blog解释了“官方认证谷歌机器人的方式”。
告诉网站管理员使用域名系统逐个进行验证似乎是最好的方式。我认为推荐的技术是执行反向DNS查找,验证名称是否在googlebot.com域中,然后使用该googlebot.com名称执行相应的正向DNS->IP查找;例如:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
我认为仅仅执行反向DNS查找是不够的,因为欺骗程序可以设置反向DNS指向crawl-a-b-c-d.googlebot.com.
发布于 2013-10-15 01:22:34
谷歌机器人使用以下范围-
203.208.60.0/24,66.249.64.0/20,2001:4860:4801:2:6b00:6006:1300:b075,2001:4860:4801:5:1000:6006:1300:b075,2001:4860:4801:6:e300:6006:1300:b075,2001:4860:4801:2001::6006:1300:b075,2001:4860:4801:2002::6006:1300:b075
Bing机器人IP范围-
65.52.104.0/24,65.52.108.0/22,65.55.24.0/24,65.55.52.0/24,65.55.55.0/24,65.55.213.0/24,131.253.24.0/22,131.253.46.0/23,157.55.16.0/23,157.55.18.0/24,157.55.32.0/22,157.55.36.0/24,157.55.48.0/24,157.55.109.0/24,157.55.110.40/29,157.55.110.48/28,157.56.92.0/24,157.56.93.0/24,157.56.94.0/23,157.56.229.0/24,199.30.16.0/24,207.46.12.0/23,207.46.192.0/24,207.46.195.0/24,207.46.199.0/24,207.46.204.0/24
使用下面的链接了解更多信息-
。
https://stackoverflow.com/questions/8600225
复制相似问题