首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Http标头User-Agent

Http标头User-Agent
EN

Stack Overflow用户
提问于 2011-05-31 20:51:03
回答 1查看 525关注 0票数 1

我正在尝试从HTTP报头中的User-Agent字符串中获取浏览器列表。在许多字符串中,浏览器信息是字符串中的第二个条目,如下所示:

代码语言:javascript
复制
(compatible;.MSIE.8.0;.Windows.NT.5.1;.Trident/4.0)

但在某些字符串中,要么没有浏览器信息,要么信息作为第三个条目出现,如下所示:

代码语言:javascript
复制
(Macintosh;.Intel.Mac.OS.X.10_6_1;.U;.so)
(Macintosh;.Intel.Mac.OS.X.10_6_1;.so)

如何实现这一点?Python中有没有什么东西可以用来处理HTTP头字段?非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2011-05-31 21:15:12

不久前我用PHP写了一个用户代理分析器,所以它可能有点过时了,但希望它能有所帮助。我提取了浏览器信息、操作系统和语言,但这里只包含浏览器信息。

所有主要的浏览器名称都包含在UA字符串中,但Mozilla却包含在UA字符串中,对于Firefox,请使用字符串Firefox。因此创建一个包含以下内容的数组:

代码语言:javascript
复制
browserList = {'Opera': 'Opera', 
    'Internet Explorer': 'MSIE',
    'Firefox': 'Firefox',
    'Chrome': 'Chrome',
    'Not specified' => ''}

然后尝试在UA字符串上匹配这些字符串。如果你不想扩展你的统计数据,你可以添加更多的浏览器。至于版本号,在大多数情况下,它紧跟在浏览器名称之后。因此,尝试提取在找到浏览器名称的索引之后的第一个数字-点-数字。

你的访问者可能是一个爬虫(一个机器人,像谷歌的),你可以通过匹配这个列表来找到这些:

代码语言:javascript
复制
nuhk, Googlebot, Yammybot, Openbot, Slurp, MSNBot, Ask Jeeves/Teoma, ia_archiver

希望这能有所帮助。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6187834

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档