开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >日志文件分析中的蜘蛛/机器人过滤技术

问日志文件分析中的蜘蛛/机器人过滤技术
EN

Server Fault用户

提问于 2009-12-14 23:47:17

回答 1查看 1.3K关注 0票数 2

我先告诉你我们要做什么。

我们所采取的措施抓住了很多蜘蛛，但我们不知道我们少了多少蜘蛛。目前，我们采用了一套明显部分重叠的措施：

监视robots.txt文件的请求:当然，从相同的IP地址+用户代理过滤所有其他请求
将用户代理和IP地址与已发布的列表进行比较: iab.net和user-agents.org发布两个列表，这两个列表似乎是用于此目的的最广泛的列表。
模式分析:对于这些指标，我们当然没有预先设定的阈值，但仍然认为它们很有用。我们将(i)页面浏览视为时间的函数(即，在每页上点击200毫秒的大量链接即可证明)；(ii)“用户”通过网站的路径是系统的、完整的还是几乎是这样的(比如跟踪算法)；以及(iii)精确的访问时间(例如，每天凌晨3点)。

再一次，我很肯定我们会得到一些很好的结果，但我很有兴趣从社区那里获得意见。

EN

回答 1

Server Fault用户

回答已采纳

发布于 2009-12-15 02:43:06

这些通讯贴上了网络日志分析的标签

商业尼霍网站日志分析器站点页面可能是有用的阅读。

票数 -3

EN

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/94369

复制

相似问题