文章/答案/技术大牛

发布

社区首页 >问答首页 >用户代理识别和搜索引擎优化爬虫数据库

问用户代理识别和搜索引擎优化爬虫数据库
EN

Webmasters Stack Exchange用户

提问于 2012-08-07 07:40:49

回答 3查看 1.6K关注 0票数 2

我被要求分析一个网站的流量日志。特别是，我必须从收集的user agent值开始识别爬虫。

我知道有“陷阱”链接，你可以用它来区分爬虫和人类。现在我只分析user agent值。

现在问题来了。是否有公共目录或网络爬虫库？

编辑

这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与爬虫有关还是与一个创作过程有关？

seo

web-crawlers

回答 3

Webmasters Stack Exchange用户

发布于 2012-08-07 08:11:40

Google搜索的第一个链接可能是您要寻找的- http://www.user-agents.org/。

票数 2

Webmasters Stack Exchange用户

发布于 2012-08-07 09:57:04

你很不可能找到一些完全通用的UserAgents列表，部分原因是它们可以被弥补。不过，在达到这个目标之前，这将是一项荒谬的工作。您只需要编译一些资源，然后进一步搜索其他您不认识的内容。(令人惊讶的是，我找不到维基百科的“…列表”(这篇文章。)

这里有一个巨大的列表，除了iOS UA字符串什么都没有。如果您在date列中查看其中一些更改的速度，并考虑到文档的上一次更新是10周前，很可能已经遗漏了一些内容。
UserAgentString.com似乎是最近才被维护的，而不是user-agents.org。这些产品名称中的每一个都会使用它自己的有时-巨大的列表生成一个单独的页面。
user-agent-string.info有很多非浏览器的，似乎缺少了以前的，所以也可能是好的周围有。

票数 2

Webmasters Stack Exchange用户

发布于 2012-08-14 12:49:13

本周，我们公司推出了Botopedia.org --一个社区来源的bot目录。它是100%免费的，对所有人开放，您可以使用它为所有您想要查找的机器人找到完整的用户代理列表。

至于识别方法，我想请您参考Security.Stackexchange中的这一讨论，它涉及不同的bot识别方法(如JS挑战、方法检查、robot.txt访问等)。

票数 1

页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://webmasters.stackexchange.com/questions/33098

复制

相似问题

问用户代理识别和搜索引擎优化爬虫数据库
EN

编辑

回答 3

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用户代理识别和搜索引擎优化爬虫数据库EN

编辑

回答 3

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

Webmasters Stack Exchange用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用户代理识别和搜索引擎优化爬虫数据库
EN