文章/答案/技术大牛

发布

问石墨停止随机收集数据
EN

Server Fault用户

提问于 2013-08-23 09:30:16

回答 2查看 2.7K关注 0票数 8

我们有一个图形服务器来收集数据通过收集，统计，JMXTrans .从几天以来，我们的数据经常出现漏洞。通过对现有数据的挖掘，我们可以看到碳缓存的大小(从50K增加到400万)。我们没有看到收集的度量数量增加(metricsReceived稳定在300 K左右)。我们的查询数量平均从1000个增加到1500个。

奇怪的是，当缓存大小增加时，cpuUsage从100% (我们有4个CPU)略微下降到50%。

奇怪的是，如果从磁盘读取octets，我们会看到数量增加，写入的octets数量也会减少。

我们的碳配置大多采用默认值：

MAX_CACHE_SIZE = inf
MAX_UPDATES_PER_SECOND = 5000
MAX_CREATES_PER_MINUTE =2000年

很明显，我们的系统发生了一些变化，但是我们不明白是什么，也不知道我们如何找到这个原因。

有什么帮助吗？

graphite

metrics

回答 2

Server Fault用户

发布于 2013-10-28 05:45:46

这不是石墨堆栈的错误，而是IO瓶颈，很可能是因为您的存储没有足够高的IOPS。正因为如此，队列不断增加，并以4米的速度溢出。在这一点上，您丢失了大量排队的数据，这些数据稍后会作为图形中的随机“空白”反映出来。您的系统无法与其接收度量的规模保持一致。它不断的充满和溢出。

奇怪的是，当缓存大小增加时，cpuUsage从100% (我们有4个CPU)略微下降到50%。

这是因为您的系统开始交换，CPU获得了大量的“空闲时间”，因为IO等待。

为了添加上下文，我在aws上配置了500个IOPS，在这个系统上，我收到了大约40K的度量。在50K时队列是稳定的。

票数 2

Server Fault用户

发布于 2017-06-12 20:08:35

其他应答者提到了磁盘i/o瓶颈。我将讨论网络瓶颈是造成这一问题的另一个原因。

在我的环境中，我们运行一个前端UI服务器集群(httpd，memcached)；另一个中间层中继集群(执行转发和聚合的c中继)；以及后端层(httpd、memcached、碳-c中继和碳-缓存)。每个集群都由EC2中的多个实例组成，在整个过程中，每分钟有1500万个度量标准。

我们遇到了一个问题，我们看到了由聚合"sum“函数生成的度量标准的差距，而且聚合值也是不正确的(太低)。这个问题可以通过在中间层重新启动碳-c继电器来缓解，但几个小时后就会再次出现缺口。

我们在中间层和后端层都进行了聚合(后端层聚合了从中间层传递给它的聚合度量)。

中间层主机没有cpu绑定，没有磁盘绑定，也没有对内存的约束。再加上这个问题在重新启动中继程序几个小时后才会出现，这就意味着存在网络瓶颈。我们的解决方案只是向中间层添加更多的主机。这样做会立即导致聚合度量的正确执行，而不会出现空白。

网络堆栈中的确切位置，瓶颈在哪里？我不能告诉你。它可能是在linux主机上，也可能是在Amazon端。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/533198

复制

相似问题

问石墨停止随机收集数据
EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问石墨停止随机收集数据EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问石墨停止随机收集数据
EN