首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >日志文件分析中的蜘蛛/机器人过滤技术

日志文件分析中的蜘蛛/机器人过滤技术
EN

Server Fault用户
提问于 2009-12-14 23:47:17
回答 1查看 1.3K关注 0票数 2

我先告诉你我们要做什么。

我们所采取的措施抓住了很多蜘蛛,但我们不知道我们少了多少蜘蛛。目前,我们采用了一套明显部分重叠的措施:

  1. 监视robots.txt文件的请求:当然,从相同的IP地址+用户代理过滤所有其他请求
  2. 将用户代理和IP地址与已发布的列表进行比较: iab.net和user-agents.org发布两个列表,这两个列表似乎是用于此目的的最广泛的列表。
  3. 模式分析:对于这些指标,我们当然没有预先设定的阈值,但仍然认为它们很有用。我们将(i)页面浏览视为时间的函数(即,在每页上点击200毫秒的大量链接即可证明);(ii)“用户”通过网站的路径是系统的、完整的还是几乎是这样的(比如跟踪算法);以及(iii)精确的访问时间(例如,每天凌晨3点)。

再一次,我很肯定我们会得到一些很好的结果,但我很有兴趣从社区那里获得意见。

EN

回答 1

Server Fault用户

回答已采纳

发布于 2009-12-15 02:43:06

这些通讯贴上了网络日志分析的标签

商业尼霍网站日志分析器站点页面可能是有用的阅读。

票数 -3
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/94369

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档