文章/答案/技术大牛

发布

社区首页 >问答首页 >Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比

问Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比
EN

Stack Overflow用户

提问于 2018-05-10 21:23:17

回答 1查看 9.4K关注 0票数 6

我想创建一个Grafana 'singlestat‘面板，根据测试失败指标的存在与否来显示正常运行时间或SLA’百分比‘。

对于不同的测试框架，我已经有了适当的度量标准e2e_tests_failure_count。这意味着以下查询将返回观察到的测试失败总数：

sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})

我已经设法创建了一个图，如果一切正常，则为"1“，如果有任何测试失败，则为"0”：

1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)

我现在希望有一个百分比值来显示一段时间内的“正常运行时间”(=环境处于“无助状态”的时间量)，例如最近5天。比如"99.5%“或者，更适合截图的是"65%”。

我尝试了这样的东西：

(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]

但这只会导致解析器错误。谷歌搜索并没有让我更进一步，所以我希望我能在这里找到帮助:)

grafana

prometheus

promql

回答 1

Stack Overflow用户

发布于 2018-06-01 03:26:26

刚刚弄清楚了这一点，我相信它正在产生正确的结果。您必须使用记录规则，因为您不能从单个查询中函数的实例向量结果创建范围向量，正如您已经发现的(您会得到一个解析错误)。因此，我们将函数结果(将是实例向量)记录为新的时间序列，并将其用作不同查询中的指标名称，然后您可以添加[5d]以选择范围。

我们每分钟对所有服务运行多次测试，每个服务(" service“是一个标签，其中每个服务的名称是标签值)都有不同数量的测试与之关联，但如果给定服务的任何测试失败，我们认为这是一个”停机时刻“。(给定服务的测试失败次数在带有status="failure"标签值的指标中捕获。)我们将失败次数限制为1，因此我们的值只有0和1，因此可以使用不等式运算符和bool修饰符将“失败值时间序列”转换为“成功值时间序列”。(有关bool用法的讨论，请参阅this post。)因此，对于在该刮擦间隔内所有测试都成功的每个服务，第一个记录度量的结果是1，而对于该服务，至少有一个测试失败，则结果为0。

如果某个服务在任何给定分钟内返回的所有值的失败次数>0，我们认为该服务在该分钟内处于“停机”状态。(因此，如果我们在给定的一分钟内既有失败又有成功，那就不算停机。)这就是为什么我们有第二个记录的度量来产生实际的"up for this minute“布尔值。第二个记录的指标建立在第一个指标的基础上，这是可以的，因为普罗米修斯的文档说记录的指标在每个组中连续运行。

因此，任何给定持续时间的“正常运行时间”是“这一分钟的正常运行时间”值的总和(即每一分钟上升1)除以持续时间内的总分钟数，无论该持续时间是多少。

由于我们已经定义了一个名为"minute_up_bool“的记录指标，因此我们可以在任何我们想要的范围内创建一个正常运行时间图。(顺便说一句，记录的指标只在您第一次定义它们之后才会生成时间，所以您不会在今天定义的记录指标中包含昨天的时间序列数据。)您可以在Grafana中执行以下查询，以显示过去5天的移动窗口中的正常运行时间百分比：

sum_over_time(minute_up_bool[5d]) * 100 / (5 * 24 * 60)

下面是我们的录音规则配置：

groups:
- name: uptime
  interval: 1m
  # Each rule here builds on the previous one.
  rules:
  # Get test results as pass/fail => 1/0
  # (label_replace() removes confusing status="failure" label value)
  - record: test_success_bool
    expr: label_replace(clamp_max(test_statuses_total{status="failure"}, 1), "status", "", "", "") != bool 1
  # Get the uptime as 1 minute range where the sum of successes is not zero
  - record: minute_up_bool
    expr: clamp_max(sum_over_time(test_success_bool[1m]), 1)

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50273977

复制

相似问题

问Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Grafana中滑动窗口上的Prometheus正常运行时间或SLA百分比
EN