我正在尝试从HTTP报头中的User-Agent字符串中获取浏览器列表。在许多字符串中,浏览器信息是字符串中的第二个条目,如下所示:
(compatible;.MSIE.8.0;.Windows.NT.5.1;.Trident/4.0)但在某些字符串中,要么没有浏览器信息,要么信息作为第三个条目出现,如下所示:
(Macintosh;.Intel.Mac.OS.X.10_6_1;.U;.so)
(Macintosh;.Intel.Mac.OS.X.10_6_1;.so)如何实现这一点?Python中有没有什么东西可以用来处理HTTP头字段?非常感谢。
发布于 2011-05-31 21:15:12
不久前我用PHP写了一个用户代理分析器,所以它可能有点过时了,但希望它能有所帮助。我提取了浏览器信息、操作系统和语言,但这里只包含浏览器信息。
所有主要的浏览器名称都包含在UA字符串中,但Mozilla却包含在UA字符串中,对于Firefox,请使用字符串Firefox。因此创建一个包含以下内容的数组:
browserList = {'Opera': 'Opera',
'Internet Explorer': 'MSIE',
'Firefox': 'Firefox',
'Chrome': 'Chrome',
'Not specified' => ''}然后尝试在UA字符串上匹配这些字符串。如果你不想扩展你的统计数据,你可以添加更多的浏览器。至于版本号,在大多数情况下,它紧跟在浏览器名称之后。因此,尝试提取在找到浏览器名称的索引之后的第一个数字-点-数字。
你的访问者可能是一个爬虫(一个机器人,像谷歌的),你可以通过匹配这个列表来找到这些:
nuhk, Googlebot, Yammybot, Openbot, Slurp, MSNBot, Ask Jeeves/Teoma, ia_archiver希望这能有所帮助。
https://stackoverflow.com/questions/6187834
复制相似问题