首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >石墨停止随机收集数据

石墨停止随机收集数据
EN

Server Fault用户
提问于 2013-08-23 09:30:16
回答 2查看 2.7K关注 0票数 8

我们有一个图形服务器来收集数据通过收集,统计,JMXTrans .从几天以来,我们的数据经常出现漏洞。通过对现有数据的挖掘,我们可以看到碳缓存的大小(从50K增加到400万)。我们没有看到收集的度量数量增加(metricsReceived稳定在300 K左右)。我们的查询数量平均从1000个增加到1500个。

奇怪的是,当缓存大小增加时,cpuUsage从100% (我们有4个CPU)略微下降到50%。

奇怪的是,如果从磁盘读取octets,我们会看到数量增加,写入的octets数量也会减少。

我们的碳配置大多采用默认值:

  • MAX_CACHE_SIZE = inf
  • MAX_UPDATES_PER_SECOND = 5000
  • MAX_CREATES_PER_MINUTE =2000年

很明显,我们的系统发生了一些变化,但是我们不明白是什么,也不知道我们如何找到这个原因。

有什么帮助吗?

EN

回答 2

Server Fault用户

发布于 2013-10-28 05:45:46

这不是石墨堆栈的错误,而是IO瓶颈,很可能是因为您的存储没有足够高的IOPS。正因为如此,队列不断增加,并以4米的速度溢出。在这一点上,您丢失了大量排队的数据,这些数据稍后会作为图形中的随机“空白”反映出来。您的系统无法与其接收度量的规模保持一致。它不断的充满和溢出。

奇怪的是,当缓存大小增加时,cpuUsage从100% (我们有4个CPU)略微下降到50%。

这是因为您的系统开始交换,CPU获得了大量的“空闲时间”,因为IO等待。

为了添加上下文,我在aws上配置了500个IOPS,在这个系统上,我收到了大约40K的度量。在50K时队列是稳定的。

票数 2
EN

Server Fault用户

发布于 2017-06-12 20:08:35

其他应答者提到了磁盘i/o瓶颈。我将讨论网络瓶颈是造成这一问题的另一个原因。

在我的环境中,我们运行一个前端UI服务器集群(httpd,memcached);另一个中间层中继集群(执行转发和聚合的c中继);以及后端层(httpd、memcached、碳-c中继和碳-缓存)。每个集群都由EC2中的多个实例组成,在整个过程中,每分钟有1500万个度量标准。

我们遇到了一个问题,我们看到了由聚合"sum“函数生成的度量标准的差距,而且聚合值也是不正确的(太低)。这个问题可以通过在中间层重新启动碳-c继电器来缓解,但几个小时后就会再次出现缺口。

我们在中间层和后端层都进行了聚合(后端层聚合了从中间层传递给它的聚合度量)。

中间层主机没有cpu绑定,没有磁盘绑定,也没有对内存的约束。再加上这个问题在重新启动中继程序几个小时后才会出现,这就意味着存在网络瓶颈。我们的解决方案只是向中间层添加更多的主机。这样做会立即导致聚合度量的正确执行,而不会出现空白。

网络堆栈中的确切位置,瓶颈在哪里?我不能告诉你。它可能是在linux主机上,也可能是在Amazon端。

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/533198

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档