目前,我的公司正在尝试添加Google Plus One链接到我们的网站。
我们让代码正常工作,但是Google-Plus Crawler似乎无法访问页面内容。当创建共享链接片段时,它会呈现一条消息,说明爬虫程序无法查看内容,因为它未能通过测试区分机器人和人类访问者。
我们可以将机器人列入白名单,但是我们使用的系统只接受User-Agent和URL。当检测到User-Agent时,运行反向查找,并将机器人ip与输入的url进行比较,以查看其是否来自同一组ip。
我知道Google Plus爬虫没有使用机器人风格的用户代理,比如Mozilla/5.0 (兼容;Googlebot/2.1;+http://www.google.com/bot.html),但是有没有一个用户代理我们可以在上面执行必要的白名单测试?
发布于 2013-12-24 05:31:05
是的,确实如此。+Snippet bot用户代理包含以下字符串:
Google (+https://developers.google.com/+/web/snippet/)发布于 2014-04-30 22:52:15
这是用户代理为我返回的内容:
Gecko Mozilla/5.0 (Windows NT6.1;rv:6.0)
/20110814火狐/6.0Google (+https://developers.google.com/+/web/snippet/)
发布于 2014-06-27 23:33:01
这是用户代理为我返回的内容: Mozilla/5.0 (Windows NT6.1;rv:6.0) Gecko/20110814 Firefox/6.0 Google (+)
https://stackoverflow.com/questions/20750191
复制相似问题