我有来自服务器的apache日志,我使用python脚本过滤了来自bots/爬虫/刮刀器的访问,该脚本检查包含“bot”、“googlebot”等文本的用户代理字符串。
最近,我认为是msnbot/bingbot访问了我的站点,但是他们没有在他们的用户代理中报告。
日志行的一个例子是:
207.46.12.74 - - [27/May/2011:07:45:07 -0400] ...stuff... "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/5.0; SLCC1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648)"
以及IP地址的反向DNS:
Name: msnbot-207-46-12-74.search.msn.com
Address: 207.46.12.74现在,我正在考虑过滤掉特定的IP地址,当我在他们的IP地址上执行msnbot时,我检测到它们是rDNS,但是当我向一位同事展示这一点时,他觉得微软的bingbots没有报告他们的用户代理,比如IE私有浏览或者必应的安全网站爬虫。
我看过Honeypot项目,有用户代理数据库的各种站点,并且已经确认了MSN/Bing机器人使用的IP地址的网络块,但我认为他需要更严格的确认。
有人知道这些机器人的行为,以及他们为什么不把自己的代理字符串报告为“机器人”?
发布于 2011-06-03 09:40:48
虽然这篇文章很古老,但它告诉您如何验证msnbot:http://www.bing.com/community/site_blogs/b/search/archive/2006/11/29/search-robots-in-disguise.aspx
您已经完成了步骤2、3和4,所有检查结果都是确定的,所以我认为用户代理没有说msnbot代表他们是一个错误。当search.live.com成为bing时,他们保留了相同的msnbot用户代理,并更改了版本号:
http://www.bing.com/community/site_blogs/b/webmaster/archive/2009/11/04/msnbot-1-1-is-retired.aspx
我会把你的发现提交给索引和排名论坛,看看你是否得到微软的回应。
不过,DNS查找应该允许您过滤掉这个行为不检的机器人。
https://webmasters.stackexchange.com/questions/14736
复制相似问题