我被要求分析一个网站的流量日志。特别是,我必须从收集的user agent值开始识别爬虫。
我知道有“陷阱”链接,你可以用它来区分爬虫和人类。现在我只分析user agent值。
现在问题来了。是否有公共目录或网络爬虫库?
这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与爬虫有关还是与一个创作过程有关?
发布于 2012-08-07 08:11:40
Google搜索的第一个链接可能是您要寻找的- http://www.user-agents.org/。
发布于 2012-08-07 09:57:04
你很不可能找到一些完全通用的UserAgents列表,部分原因是它们可以被弥补。不过,在达到这个目标之前,这将是一项荒谬的工作。您只需要编译一些资源,然后进一步搜索其他您不认识的内容。(令人惊讶的是,我找不到维基百科的“…列表”(这篇文章。)
发布于 2012-08-14 12:49:13
本周,我们公司推出了Botopedia.org --一个社区来源的bot目录。它是100%免费的,对所有人开放,您可以使用它为所有您想要查找的机器人找到完整的用户代理列表。
至于识别方法,我想请您参考Security.Stackexchange中的这一讨论,它涉及不同的bot识别方法(如JS挑战、方法检查、robot.txt访问等)。
https://webmasters.stackexchange.com/questions/33098
复制相似问题