我应该如何解释一个空的用户代理?我有一些自定义的分析代码,而这个代码只需要分析人类的流量。我有一个用户代理的工作列表,表示人类流量和机器人流量,但是这个空的用户代理被证明是有问题的。我得到了大量的流量与空的用户代理,约10%。
此外,我还通过分析当前日志构建了人工流量与bot流量用户代理列表。因此,我可能在那里遗漏了很多条目。是否有一个维护良好的表示bot流量的用户代理列表,或者相反,表示人工流量的用户代理列表?
发布于 2012-10-14 21:32:05
如果您只想分析“人工流量”,我将不计算那些空的或丢失的用户代理字符串。根据我的经验,几乎任何浏览器都会发送一个。即使大多数隐私插件或扩展都是假的(包括其他操作系统或客户端名称)或“正常化”(例如没有发布号)或随机化(有时是FF,有时是IE字符串),但不完全删除它们(因为这可能会给一些依赖它的站点带来问题,即使这不是个好主意)。
一个没有UA的简单请求可以这样做:
wget --user-agent="" www.example.com正如你所看到的,你可以添加任何你想要的东西。存储和发布UA发现的“野生”网站没有多大用处,因为它们发现了大量的垃圾。
也许有人只是递归地获取了你的内容。或者使用一些SEO工具来分析您的站点(有些允许用户手动更改标题,另一些则有意忽略robots.txt行)。诸如此类的事情。在这种情况下,UA头通常是伪造的,以隐藏客户端和目的。
如果这些请求一直存在,那么进一步分析头(代理)可能会有帮助。或者IP(某个街区)?与私隐有关的公司/代理人?)
发布于 2012-10-15 10:11:44
我在一家保安公司工作,我们监控坏机器人的流量。
根据我的经验,使用空白用户代理数据进行的人类访问表明,由“无头浏览器”机器人进行的刮/发垃圾的尝试(通常是擦拭)。
这些访问者有时可以执行JS,所以他们会出现在GA中--尽管如此,这并不能使他们成为人类:)
道歉的“插头”,但请知道,如果需要,我们提供免费的坏机器人保护服务-加上CDN加速和其他好处。
在这个特定的情况下,我们的系统会发现这次访问是“可疑的”,根据已知的攻击媒介来验证它,如果还不确定的话,还会进行进一步的测试和挑战。这些挑战是无缝地执行的,不会对会话造成任何延迟。
发布于 2019-08-29 09:07:29
在这个问题的答案中,我看到了一些评论,将用户代理与隐藏身份或作为人类进行比较。这是一个荒谬的比较。用户代理与身份或身份无关。
把它想象成鞋类。在你让访客进来之前,你会问他们穿的是什么样的鞋子。最常见的用途是知道你需要铺什么样的地毯,干净的正装鞋有漂亮的红地毯,泥泞的靴子用难看的门垫,对过敏地毯的游客没有地毯。
当游客不想说他们有什么鞋类时。空的用户-代理)你忽略他们。
是的,有许多良好的实践尝试根据用户代理和其他请求头信息来假设web请求。它们可能会在99%的时间内发挥很大的作用,但就像其他许多类似的实践一样,它们很容易出现假阳性,从而伤害到正常无知的用户。
遇到偶然使用一个空的用户代理的问题,我可以肯定地说,当一个web服务以不同的方式对待你,仅仅是因为你不想告诉它你的鞋子是不有趣的。
https://webmasters.stackexchange.com/questions/35642
复制相似问题