文章/答案/技术大牛

发布

社区首页 >问答首页 >是否有标准或共同的方法来定义服务水平指标？

问是否有标准或共同的方法来定义服务水平指标？
EN

DevOps用户

提问于 2019-10-23 16:25:03

回答 4查看 693关注 0票数 0

我已经开始采用现场可靠性工程的原则，以现代的方式操作。

从我迄今的阅读中，我已经确定，核心做法之一是监测。SRE进行监控的方法是定义服务水平指标(，SLI )，它度量最终用户体验的一个方面，然后在SLI周围确定一个阈值，称为服务级别目标(，SLO)。

是否有标准或共同的方法来定义服务水平指标？

sre

operations

operating-model

回答 4

DevOps用户

发布于 2019-10-25 10:17:15

虽然谷歌并不是一种严格的标准方法，但它已经发布了一个SLI菜单和一个为用户日志开发SLI的过程：

对于每个用户旅程/数据流，从SLI菜单中确定适合的SLI类型：

就如何衡量好的和有效的事件做出决定，
决定从以下方面测量SLI的位置:终端用户、客户端仪器、合成客户端、前端度量、应用度量或服务器端日志记录。

然后，该文档继续描述，您如何为所有用户日志整理所有SLI，然后步行寻找覆盖范围空白。最后，根据业务需要或过去的表现，根据SLI设置SLO。

票数 3

DevOps用户

发布于 2020-01-29 22:43:18

您必须以跨功能的方式定义对客户(或用户)最重要的内容，例如开发、PM、支持、执行人员、SRE。

例如，单是内存使用通常并不直接关系到客户和以上大多数角色。不过，容量规划确实很重要--因此，虽然它不是SLI/SLO的应用程序，但它对devs/SRE以及最终的执行人员(资金)来说可能很重要。可能有一个内部SLI/SLO围绕保持高效率。

移动应用程序执行操作时间过长或经常失败，可能会对许多与业务相关的客户或部分客户产生负面影响。这些通常是一个面临跨功能问题的客户，例如，支持票被归档，执行人员可能会被调用，SRE可能正在尝试解决这个问题，并且需要在功能开发人员选择器中循环。

鉴于所有这些，需要跨功能度量(SLI)和边界(SLO)来代表客户的痛苦/不快。缺乏这样的通用指标往往会导致以下影响：“内存使用率低”(devs/ are )、“功能已经发布”(PM)、“我没有接到调用”(execs)、“用户不高兴”(支持)。

谷歌还发表了关于如何定义SLI和SLO的研讨会(在CC-by4.0下)：https://cloud.google.com/blog/products/management-tools/learn-how-to-set-slos-for-an-sre-or-cre-practice。

还有一篇关于如何在一段时间内调整SLI(和SLO)的博客文章：https://cloud.google.com/blog/products/management-tools/tune-up-your-sli-metrics-cre-life-lessons。

免责声明:我为谷歌工作。

票数 0

DevOps用户

发布于 2022-08-08 15:21:31

我想我要加一点.SLI/SLO本身并不是一种监测工具。

它们是主动和持续的现场可靠性工程的基础。只有一组SLI/SLO，您将能够在很长一段时间内评估服务的可靠性，并围绕此进行计划(例如，优先考虑提高可靠性的活动而不是新的功能，以便改进SLI)。

为了添加监视方面(即早期检测服务的退化)，您需要在SLI之上添加烧损率警报。只有那些，你将有可接受的检测和重置时间，以监测潜在的问题。刻录速率警报实现在SRE工作簿：https://sre.google/workbook/alerting-on-slos/的第5章中进行了介绍。

票数 0

页面原文内容由DevOps提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://devops.stackexchange.com/questions/9542

复制

相似问题

问是否有标准或共同的方法来定义服务水平指标？
EN

回答 4

DevOps用户

DevOps用户

DevOps用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有标准或共同的方法来定义服务水平指标？EN

回答 4

DevOps用户

DevOps用户

DevOps用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是否有标准或共同的方法来定义服务水平指标？
EN