首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用户代理识别和搜索引擎优化爬虫数据库

用户代理识别和搜索引擎优化爬虫数据库
EN

Webmasters Stack Exchange用户
提问于 2012-08-07 07:40:49
回答 3查看 1.6K关注 0票数 2

我被要求分析一个网站的流量日志。特别是,我必须从收集的user agent值开始识别爬虫。

我知道有“陷阱”链接,你可以用它来区分爬虫和人类。现在我只分析user agent值。

现在问题来了。是否有公共目录或网络爬虫库?

编辑

这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与爬虫有关还是与一个创作过程有关?

EN

回答 3

Webmasters Stack Exchange用户

发布于 2012-08-07 08:11:40

Google搜索的第一个链接可能是您要寻找的- http://www.user-agents.org/

票数 2
EN

Webmasters Stack Exchange用户

发布于 2012-08-07 09:57:04

你很不可能找到一些完全通用的UserAgents列表,部分原因是它们可以被弥补。不过,在达到这个目标之前,这将是一项荒谬的工作。您只需要编译一些资源,然后进一步搜索其他您不认识的内容。(令人惊讶的是,我找不到维基百科的“…列表”(这篇文章。)

  • 这里有一个巨大的列表,除了iOS UA字符串什么都没有。如果您在date列中查看其中一些更改的速度,并考虑到文档的上一次更新是10周前,很可能已经遗漏了一些内容。
  • UserAgentString.com似乎是最近才被维护的,而不是user-agents.org。这些产品名称中的每一个都会使用它自己的有时-巨大的列表生成一个单独的页面。
  • user-agent-string.info有很多非浏览器的,似乎缺少了以前的,所以也可能是好的周围有。
票数 2
EN

Webmasters Stack Exchange用户

发布于 2012-08-14 12:49:13

本周,我们公司推出了Botopedia.org --一个社区来源的bot目录。它是100%免费的,对所有人开放,您可以使用它为所有您想要查找的机器人找到完整的用户代理列表。

至于识别方法,我想请您参考Security.Stackexchange中的这一讨论,它涉及不同的bot识别方法(如JS挑战、方法检查、robot.txt访问等)。

票数 1
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/33098

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档