问Http标头User-Agent
EN

Stack Overflow用户

提问于 2011-05-31 20:51:03

回答 1查看 525关注 0票数 1

我正在尝试从HTTP报头中的User-Agent字符串中获取浏览器列表。在许多字符串中，浏览器信息是字符串中的第二个条目，如下所示：

(compatible;.MSIE.8.0;.Windows.NT.5.1;.Trident/4.0)

但在某些字符串中，要么没有浏览器信息，要么信息作为第三个条目出现，如下所示：

(Macintosh;.Intel.Mac.OS.X.10_6_1;.U;.so)
(Macintosh;.Intel.Mac.OS.X.10_6_1;.so)

如何实现这一点？Python中有没有什么东西可以用来处理HTTP头字段？非常感谢。

发布于 2011-05-31 21:15:12

不久前我用PHP写了一个用户代理分析器，所以它可能有点过时了，但希望它能有所帮助。我提取了浏览器信息、操作系统和语言，但这里只包含浏览器信息。

所有主要的浏览器名称都包含在UA字符串中，但Mozilla却包含在UA字符串中，对于Firefox，请使用字符串Firefox。因此创建一个包含以下内容的数组：

browserList = {'Opera': 'Opera', 
    'Internet Explorer': 'MSIE',
    'Firefox': 'Firefox',
    'Chrome': 'Chrome',
    'Not specified' => ''}

然后尝试在UA字符串上匹配这些字符串。如果你不想扩展你的统计数据，你可以添加更多的浏览器。至于版本号，在大多数情况下，它紧跟在浏览器名称之后。因此，尝试提取在找到浏览器名称的索引之后的第一个数字-点-数字。

你的访问者可能是一个爬虫(一个机器人，像谷歌的)，你可以通过匹配这个列表来找到这些：

nuhk, Googlebot, Yammybot, Openbot, Slurp, MSNBot, Ask Jeeves/Teoma, ia_archiver

希望这能有所帮助。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6187834

复制

相似问题

问Http标头User-AgentEN