首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比

Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比
EN

Stack Overflow用户
提问于 2018-05-10 21:23:17
回答 1查看 9.4K关注 0票数 6

我想创建一个Grafana 'singlestat‘面板,根据测试失败指标的存在与否来显示正常运行时间或SLA’百分比‘。

对于不同的测试框架,我已经有了适当的度量标准e2e_tests_failure_count。这意味着以下查询将返回观察到的测试失败总数:

代码语言:javascript
复制
sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})

我已经设法创建了一个图,如果一切正常,则为"1“,如果有任何测试失败,则为"0”:

代码语言:javascript
复制
1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)

我现在希望有一个百分比值来显示一段时间内的“正常运行时间”(=环境处于“无助状态”的时间量),例如最近5天。比如"99.5%“或者,更适合截图的是"65%”。

我尝试了这样的东西:

代码语言:javascript
复制
(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]

但这只会导致解析器错误。谷歌搜索并没有让我更进一步,所以我希望我能在这里找到帮助:)

EN

回答 1

Stack Overflow用户

发布于 2018-06-01 03:26:26

刚刚弄清楚了这一点,我相信它正在产生正确的结果。您必须使用记录规则,因为您不能从单个查询中函数的实例向量结果创建范围向量,正如您已经发现的(您会得到一个解析错误)。因此,我们将函数结果(将是实例向量)记录为新的时间序列,并将其用作不同查询中的指标名称,然后您可以添加[5d]以选择范围。

我们每分钟对所有服务运行多次测试,每个服务(" service“是一个标签,其中每个服务的名称是标签值)都有不同数量的测试与之关联,但如果给定服务的任何测试失败,我们认为这是一个”停机时刻“。(给定服务的测试失败次数在带有status="failure"标签值的指标中捕获。)我们将失败次数限制为1,因此我们的值只有0和1,因此可以使用不等式运算符和bool修饰符将“失败值时间序列”转换为“成功值时间序列”。(有关bool用法的讨论,请参阅this post。)因此,对于在该刮擦间隔内所有测试都成功的每个服务,第一个记录度量的结果是1,而对于该服务,至少有一个测试失败,则结果为0。

如果某个服务在任何给定分钟内返回的所有值的失败次数>0,我们认为该服务在该分钟内处于“停机”状态。(因此,如果我们在给定的一分钟内既有失败又有成功,那就不算停机。)这就是为什么我们有第二个记录的度量来产生实际的"up for this minute“布尔值。第二个记录的指标建立在第一个指标的基础上,这是可以的,因为普罗米修斯的文档说记录的指标在每个组中连续运行。

因此,任何给定持续时间的“正常运行时间”是“这一分钟的正常运行时间”值的总和(即每一分钟上升1)除以持续时间内的总分钟数,无论该持续时间是多少。

由于我们已经定义了一个名为"minute_up_bool“的记录指标,因此我们可以在任何我们想要的范围内创建一个正常运行时间图。(顺便说一句,记录的指标只在您第一次定义它们之后才会生成时间,所以您不会在今天定义的记录指标中包含昨天的时间序列数据。)您可以在Grafana中执行以下查询,以显示过去5天的移动窗口中的正常运行时间百分比:

代码语言:javascript
复制
sum_over_time(minute_up_bool[5d]) * 100 / (5 * 24 * 60)

下面是我们的录音规则配置:

代码语言:javascript
复制
groups:
- name: uptime
  interval: 1m
  # Each rule here builds on the previous one.
  rules:
  # Get test results as pass/fail => 1/0
  # (label_replace() removes confusing status="failure" label value)
  - record: test_success_bool
    expr: label_replace(clamp_max(test_statuses_total{status="failure"}, 1), "status", "", "", "") != bool 1
  # Get the uptime as 1 minute range where the sum of successes is not zero
  - record: minute_up_bool
    expr: clamp_max(sum_over_time(test_success_bool[1m]), 1)
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50273977

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档