首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用自定义爬虫防止虚假分析统计

用自定义爬虫防止虚假分析统计
EN

Stack Overflow用户
提问于 2013-11-15 10:21:34
回答 3查看 678关注 0票数 2

是否有办法通过使用PhantomJS和/或海葵这样的红宝石爬虫来防止伪造的Google统计数据

我们的监控工具(基于这两种工具)从我们的客户端抓取站点并更新特定域中每个链接的链接状态。

这个问题,模拟了巨大的贸易。

有没有办法说“我是个机器人,不要跟踪我”之类的话?

(将爬虫IP添加到作为过滤器可能不是最好的解决方案)

提前感谢

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2013-11-18 14:58:12

我为这个具体的问题找到了一个快速的解决办法。从所有Google统计数据中排除执行js (比如幻影js)的爬虫最简单的方法是,通过/etc/host阻止Google域。

代码语言:javascript
复制
127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

这是防止伪造数据的最简单的方法。这样,您就不必向所有客户添加一个过滤器。

(谢谢你的其他答复)

票数 1
EN

Stack Overflow用户

发布于 2013-11-15 21:59:44

乔,尝试设置高级排除筛选器 --使用字段浏览器并将您的用户代理的名称放入幻影(或任何其他用户代理--在您的技术-> https://www.google.com/analytics/web/?hl=en#report/visitors-browser/a45655340w76391254p79023575/报告中查找所需的名称)。

票数 3
EN

Stack Overflow用户

发布于 2013-11-15 12:24:46

IP过滤可能是不够的,但可能是通过用户代理字符串(可以用幻影任意设置)进行过滤?这将是过滤器中的“浏览器”字段。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19998758

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档