文章/答案/技术大牛

发布

社区首页 >问答首页 >爬虫体系结构:避免将请求计算在Google中

问爬虫体系结构:避免将请求计算在Google中
EN

Stack Overflow用户

提问于 2015-06-11 13:30:10

回答 1查看 76关注 0票数 0

我们运行一个服务，我们需要索引我们的客户的网站偶尔。我们的一位客户刚刚注意到，我们的机器人的流量正在他们的分析中看到(他们使用Google标记管理器)。当然，他们可以尝试过滤它，但是我想知道为什么会首先跟踪它，因为我们在bot中没有启用JS，而且他们已经标出了“从已知的机器人和蜘蛛中排除流量”。两个问题：

我们能不能，从我们这边(机器人)，做点什么，告诉谷歌分析，不要计算在流量？
如果没有，他们又如何过滤掉我们的机器人呢？我们已经设置了一个用户代理，但是它似乎在google分析中是不可用的--我们的IP也是如此。

google-analytics

web-crawler

google-tag-manager

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-06-11 14:31:06

我在想为什么这是跟踪，如果有谷歌标签管理器，你已经禁用了JS。

没有JS

其结果似乎不包括通过iframe包含的tagmaneger变体。

<noscript><iframe src="//www.googletagmanager.com/ns.html?id=GTM-XXXX"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>

因此，请尝试在您的爬虫中阻止URL: www.googletagmanager.com。

与JS

只需设置窗口变量：

window['ga-disable-UA-XXXX-Y'] = true;

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30782221

复制

相似问题

问爬虫体系结构:避免将请求计算在Google中
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫体系结构:避免将请求计算在Google中EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫体系结构:避免将请求计算在Google中
EN