首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google-Plus爬虫

Google-Plus爬虫
EN

Stack Overflow用户
提问于 2013-12-24 03:47:15
回答 3查看 4.1K关注 0票数 7

目前,我的公司正在尝试添加Google Plus One链接到我们的网站。

我们让代码正常工作,但是Google-Plus Crawler似乎无法访问页面内容。当创建共享链接片段时,它会呈现一条消息,说明爬虫程序无法查看内容,因为它未能通过测试区分机器人和人类访问者。

我们可以将机器人列入白名单,但是我们使用的系统只接受User-Agent和URL。当检测到User-Agent时,运行反向查找,并将机器人ip与输入的url进行比较,以查看其是否来自同一组ip。

我知道Google Plus爬虫没有使用机器人风格的用户代理,比如Mozilla/5.0 (兼容;Googlebot/2.1;+http://www.google.com/bot.html),但是有没有一个用户代理我们可以在上面执行必要的白名单测试?

EN

回答 3

Stack Overflow用户

发布于 2013-12-24 05:31:05

是的,确实如此。+Snippet bot用户代理包含以下字符串:

代码语言:javascript
复制
Google (+https://developers.google.com/+/web/snippet/)
票数 14
EN

Stack Overflow用户

发布于 2014-04-30 22:52:15

这是用户代理为我返回的内容:

Gecko Mozilla/5.0 (Windows NT6.1;rv:6.0)

/20110814火狐/6.0Google (+https://developers.google.com/+/web/snippet/)

票数 1
EN

Stack Overflow用户

发布于 2014-06-27 23:33:01

这是用户代理为我返回的内容: Mozilla/5.0 (Windows NT6.1;rv:6.0) Gecko/20110814 Firefox/6.0 Google (+)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20750191

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档