全,
我们刚刚开始SRE之旅,并试图为我们的应用程序定义SLI / SLO。它是一个ETL应用程序,其中1.feed(例如,开始一天,结束一天的数据提要)来自不同的上游,并加载了一些转换。2.一旦加载提要,就会有一些处理数据和填充其他表的作业。3.根据第1和第2点,将数据提供给下游应用程序和用户。
在这种情况下,我们认为用户体验是,
我们根据需要数据的时间来确定以上两点的时间。基于此,我们为我们创建了SLI,如果我们必须确保在正确的时间交付数据,我们至少需要1.5小时来调查、重新处理提要,即下游/用户的SLA - 1.5小时->我们认为这是SLI。
在测量同样的时候,我们捕获了有多少次我们无法得到SLO时间处理的提要,并将%,即95%的时间,我们应该能够在SLO时间之前交付数据。
这是定义SLI / SLO的正确方法吗?
如果我们查看SLI / SLO上的大多数文档/视频等,它们会更多地关注微服务响应,以及衡量它们的成功/失败或延迟等,但在ETL或报告应用程序方面却找不到任何东西。
我可能在上面的方法是错误的,因此期待一个专家的意见,以获得更多的理解。
提前谢谢你的帮助。
PS:找不到SRE的标记或它附近的任何实践,所以用DevOps标记了问题。
发布于 2022-09-08 18:21:05
术语"SLI“、"SLO”和"SLA“具有适用于规模、领域和抽象范围的精确含义。虽然大多数文献都集中在微服务上,但这是因为微服务现在是“热门”的。要从根本上理解这些概念,请看每一个缩略词中的最后几个词:
希望这能帮上忙。
https://softwareengineering.stackexchange.com/questions/440914
复制相似问题