我已经开始采用现场可靠性工程的原则,以现代的方式操作。
从我迄今的阅读中,我已经确定,核心做法之一是监测。SRE进行监控的方法是定义服务水平指标(,SLI ),它度量最终用户体验的一个方面,然后在SLI周围确定一个阈值,称为服务级别目标(,SLO)。
是否有标准或共同的方法来定义服务水平指标?
发布于 2019-10-25 10:17:15
虽然谷歌并不是一种严格的标准方法,但它已经发布了一个SLI菜单和一个为用户日志开发SLI的过程:

然后,该文档继续描述,您如何为所有用户日志整理所有SLI,然后步行寻找覆盖范围空白。最后,根据业务需要或过去的表现,根据SLI设置SLO。
发布于 2020-01-29 22:43:18
您必须以跨功能的方式定义对客户(或用户)最重要的内容,例如开发、PM、支持、执行人员、SRE。
例如,单是内存使用通常并不直接关系到客户和以上大多数角色。不过,容量规划确实很重要--因此,虽然它不是SLI/SLO的应用程序,但它对devs/SRE以及最终的执行人员(资金)来说可能很重要。可能有一个内部SLI/SLO围绕保持高效率。
移动应用程序执行操作时间过长或经常失败,可能会对许多与业务相关的客户或部分客户产生负面影响。这些通常是一个面临跨功能问题的客户,例如,支持票被归档,执行人员可能会被调用,SRE可能正在尝试解决这个问题,并且需要在功能开发人员选择器中循环。
鉴于所有这些,需要跨功能度量(SLI)和边界(SLO)来代表客户的痛苦/不快。缺乏这样的通用指标往往会导致以下影响:“内存使用率低”(devs/ are )、“功能已经发布”(PM)、“我没有接到调用”(execs)、“用户不高兴”(支持)。
谷歌还发表了关于如何定义SLI和SLO的研讨会(在CC-by4.0下):https://cloud.google.com/blog/products/management-tools/learn-how-to-set-slos-for-an-sre-or-cre-practice。
还有一篇关于如何在一段时间内调整SLI(和SLO)的博客文章:https://cloud.google.com/blog/products/management-tools/tune-up-your-sli-metrics-cre-life-lessons。
免责声明:我为谷歌工作。
发布于 2022-08-08 15:21:31
我想我要加一点.SLI/SLO本身并不是一种监测工具。
它们是主动和持续的现场可靠性工程的基础。只有一组SLI/SLO,您将能够在很长一段时间内评估服务的可靠性,并围绕此进行计划(例如,优先考虑提高可靠性的活动而不是新的功能,以便改进SLI)。
为了添加监视方面(即早期检测服务的退化),您需要在SLI之上添加烧损率警报。只有那些,你将有可接受的检测和重置时间,以监测潜在的问题。刻录速率警报实现在SRE工作簿:https://sre.google/workbook/alerting-on-slos/的第5章中进行了介绍。
https://devops.stackexchange.com/questions/9542
复制相似问题