是否有办法通过使用PhantomJS和/或海葵这样的红宝石爬虫来防止伪造的Google统计数据
我们的监控工具(基于这两种工具)从我们的客户端抓取站点并更新特定域中每个链接的链接状态。
这个问题,模拟了巨大的贸易。
有没有办法说“我是个机器人,不要跟踪我”之类的话?
(将爬虫IP添加到作为过滤器可能不是最好的解决方案)
提前感谢
发布于 2013-11-18 14:58:12
我为这个具体的问题找到了一个快速的解决办法。从所有Google统计数据中排除执行js (比如幻影js)的爬虫最简单的方法是,通过/etc/host阻止Google域。
127.0.0.1 www.google-analytics.com
127.0.0.1 google-analytics.com这是防止伪造数据的最简单的方法。这样,您就不必向所有客户添加一个过滤器。
(谢谢你的其他答复)
发布于 2013-11-15 21:59:44
乔,尝试设置高级排除筛选器 --使用字段浏览器并将您的用户代理的名称放入幻影(或任何其他用户代理--在您的技术-> https://www.google.com/analytics/web/?hl=en#report/visitors-browser/a45655340w76391254p79023575/报告中查找所需的名称)。

发布于 2013-11-15 12:24:46
IP过滤可能是不够的,但可能是通过用户代理字符串(可以用幻影任意设置)进行过滤?这将是过滤器中的“浏览器”字段。
https://stackoverflow.com/questions/19998758
复制相似问题