我在我维护的两个网站的iis日志中看到了这个:
GET /an/existing/page/on/my/site+ForceRecrawl:+0 - 80 - 207.46.195.105 HTTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm)我每天从这些IP地址中得到一两个这样的地址: 207.46.195.105,65.52.110.190。更多,都属于msnbot-ip.search.msn.com。
也许微软在他们的爬虫中有一个bug?无论如何,在主要搜索引擎中搜索"ForceRecrawl: 0“会产生一系列随机站点。在StackOverflow或这里搜索没有结果(令我惊讶)。我是唯一一个看到这个的人吗?我第一次注意到这些是在这个月的9日,我几乎每天都会看到.
另一件我认为是疯狂的事情是,URL http://www.bing.com/bingbot.htm重定向到mail.live.com (hotmail)。
目前,我返回404's,但我正在考虑捕捉这些,去掉尾随的“ForceRecrawl: 0”,并处理,好像它是一个合法的网址。
有人能解释一下这件事吗?它是否与Bing的网站管理员工具中的某些配置有关?
发布于 2011-10-28 09:35:15
你不是唯一一个。它似乎源自必应网站管理员的工具,其中包括强制机器人重新浏览特定网址的选项。然而,这似乎是在没有用户要求这种强制重传的情况下发生的。
机器人似乎正在将指令%20ForceRecrawl%3A%200添加到url的末尾,并试图爬行url加上末端的位,这当然会抛出一个404错误。
我们已经使用BWT中的块函数删除了其中的一些,但它仍在抛出其他函数。如果不是,它可能会自我纠正,预计可能需要301重定向。
发布于 2013-08-29 13:47:21
你应该阻止机器人,
简单地在robots.txt上诋毁它们,问题就不会再次出现,除非它们更改了bot的名称或者创建了一个新的,就像microsoft做的那样,它们使用msnbot,现在使用bingbot。
https://webmasters.stackexchange.com/questions/21337
复制相似问题