首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏阿甘的码路2

    稳定性治理二,稳定性分析

    【解决】: 提前做好容量规划,进行扩容 临时增加,借调服务器 限流,超过容量的请求快速返回失败,保证系统“不挂” 依赖治理 依赖的资源不稳定 特点:依赖资源,主要是指远程服务或存储,由于远程服务的响应时间变慢 依赖治理 强弱依赖识别:对关键链路的应用进行调用链路的服务进行强弱依赖分析,识别出哪些是强依赖,哪些是弱依赖。 强依赖一般指此服务不可用,流程不能往下走,直接影响功能,否则为弱依赖。 强弱依赖关系梳理方式: 手工梳理 工具扫描 日志分析 「强弱依赖的治理:」 首先不合理的依赖先去除 强依赖是否是真正的核心业务依赖,如果不是,就变成弱依赖 「对于弱依赖,一般的处理方式:」 增加业务开关

    89451编辑于 2023-08-17
  • 来自专栏Linyb极客之路

    系统稳定性治理最佳实践

    那么系统稳定性该如何治理?有没有什么标准或者可以放之四海皆准的方法论和实践? 系统稳定性问题 ? 一个系统稳定性取决于很多因素,同样也受制于很多因素。 这类问题一般来说很难预期,也很难针对问题进行专项治理。覆盖全世界网络,根本没有人可以保证网络绝对的稳定性,也根本无法保障一台服务器永远不宕机。 稳定性治理 稳定性治理的核心三板斧,监控、压测和演练。 监控 监控如果做到了360无死角,则可以第一时间主动发现系统异常,定位到了解决则是相对明确的。 一般来说4核CPU的话,load为4表示满载。正常情况下,70%的负荷率是比较正常的,即单核CPU的Load要小于等于0.7。 系统稳定性压倒一切,只有保障了好了稳定性,才能帮助业务蓬勃增长,因此稳定性治理始终是工程师基本能力之一。

    2.3K30发布于 2020-08-27
  • 来自专栏阿甘的码路2

    稳定性治理三,故障预防、发现、处理

    稳定性相关的前置知识在前两篇文章已经说的比较多了,个人也在网上对比看了下稳定性相关的内容,都是偏概念,因此此处更加偏向于系统实战设计实现。 需要注意的是,本篇的内容说到的,需要依赖前面两篇文章提到的系统分析,需要对系统掌控全面才能针对性的制作稳定性设计策略。 稳定性治理主要是需设计故障预防、故障发现、故障处理三个环节。 自动预案 系统自动预案是指在系统出现异常或故障时,系统自动执行预先设定好的应急措施,以确保系统的稳定性和可用性。 自动调整资源分配:当系统负载过高或资源紧张时,系统自动调整资源分配,以保证系统的稳定性和性能。 本期相关 稳定性治理一,重新认识系统 稳定性治理二,稳定性分析

    1.4K31编辑于 2023-08-17
  • 来自专栏老张的求知思考世界

    被忽视的问题:测试环境稳定性治理

    目前能搜到或者说我个人看到的关于测试环境稳定性治理的文章,仅有阿里和滴滴在这方面的一些实践方法论(链接见下方)。 附链接: 阿里巴巴线下环境稳定性治理 滴滴在测试环境上的探索和实践 项目背景和痛点 先交代下背景吧,这样能更好的理解做测试环境稳定性治理的出发点和治理方案为什么要如此设计。 分析过程及治理规划 针对上述的种种问题和痛点,我用了一周的时间做调研分析和评估,最终落地了环境稳定性治理规划和方案。下面是我的分析评估和治理规划,仅供参考。 调研分析出上述几点共性问题后,我输出了如下的稳定性治理规划: 项目名称 测试环境稳定性治理 项目目的 降低测试环境不稳定因素,提升环境可用SLA;让测试同学有更充裕的时间做自己专业的事情;快速交付稳定可用的测试环支撑业务的快速发展 变更权限收口 上面第三部分“打通底层数据”实际上已经介绍过变更权限收口了,这里我想分享的是之前做环境治理时候,和DBA负责人的一次聊天过程: 我:XX大佬,我要搞测试环境稳定性治理,希望减少随意的表结构变更和让底层数据保持一致

    1.9K10编辑于 2022-01-25
  • 来自专栏瓜农老梁

    No.174# 中间件演进和稳定性治理实践

    把 “看方向” 和 “稳定性治理” 体系化,保障驾驭的马车平稳行进。 通过容灾能力设计、遵守变更规范、落实代码评审、完善监控告警、蓝绿攻防演练、事故案例复盘等方面构建 “稳定性治理” 体系。 一、文章目录与个人介绍 二、中间件演进规范实践 三、中间件变更规范实践 四、中间件异地双活实践 五、稳定性治理内容提点 ----

    72330编辑于 2022-12-03
  • 来自专栏瓜农老梁

    FA18# 中间件稳定性治理内容提点

    引言 中间件稳定性尤为重要,本文希望梳理从各个方面形成一个体系回答这个问题。推而广之,其他技术治理也类似。

    65030编辑于 2022-12-03
  • 来自专栏杨建荣的学习笔记

    B站服务稳定性建设:高可用架构与多活治理

    当前继续专注于核心业务多活建设推进、多活管控治理等工作。 以上海的机房为例,我们有4个机房,整体分为了2个可用区,用来做我们GZone的服务部署。因为两个可用区都在上海,一般延时情况都在一毫秒左右,所以在同城双活方面无需担心出现网络延时问题。 三、多活管控与治理 1.多活元信息规则治理 我们初期在CDN上的一些规则偏向非标,有大量的正则写法,所以我们在做第一步时就对多活元信息的规则进行了治理,APIGW接入时也应用了前缀路由的模式,以方便做后续的统一切流管理 4.多活定义编排 多活定义编排是指,能够选择一个业务去定义它的多活模式,确定它是CZone、GZone还是RZone的方式,确定它的服务具体分布的地域位置和可用区。 4)故障演练 这部分由框架SDK支持,它能够实现依赖的自动发现和自动的故障演练,最终会输出一份报告,确认是否都符合预期。若与预期不符,再进行改造和演练。

    1.4K21编辑于 2023-09-04
  • 前端平台大仓应用稳定性治理之路|得物技术

    ,应用稳定性治理达到了不错的效果,从未出现因大仓稳定性治理导致的线上问题。 二、治理体系前端大仓在试行之后,经过在迭代的持续性治理,已经形成了一套完整的稳定性治理流程体系,如下:定义指标:在前端大仓monorepo研发流程模式下定义应用稳定性治理目标,治理目标是经过各业务域统一对焦且切实有效的 ;治理目标制定:在每个季度初,各业务域根据应用稳定性治理结果重新定义治理目标,写入到OKR中,作为当前季度的稳定性治理事项,各业务域因应用的质量不一样,稳定性治理指标也存在一定的区别;跟进过程:在每双周的平台周会同步各业务域在迭代的稳定性治理结果 300)个error错误:得2.8分300~600(包含600)个error错误:得2.8分600~800(包含800)个error错误:得1.2分800~1000(包含1000)个error错误:得4分 往期回顾1.RocketMQ高性能揭秘:承载万亿级流量的架构奥秘|得物技术2.PAG在得物社区S级活动的落地3.AntDesign6.0尝鲜:上手现代化组件开发|得物技术4.Java设计模式:原理、框架应用与实战全解析

    22910编辑于 2026-01-06
  • 来自专栏腾讯云中间件的专栏

    混沌工程在云原生中间件稳定性治理中的实践分享

    云计算提升了软件开发运维效率,云测试打破了效能瓶颈进而提升软件质量,以混沌工程为代表的技术理念保障了云上系统稳定性。新一代软件工程将从开发效能升级、软件质量提升、系统稳定性保障三个维度全面革新。 大会以“云赋新生,精益求精”为主题,以保障系统稳定性、提升软件开发效能、促进软件高质量发展为目标,探索全面上云之后企业的软件研发效能与系统稳定性的关键技术演进和落地实践。 “精益软件工程大会”包括主论坛和可观测性、软件质效、混沌工程实践、金融行业4个主题分论坛。混沌工程实践分论坛将于2022年6月20日下午14:00开始。 议题分享 腾讯云Kafka产品研发负责人许文强将在混沌工程实践分论坛为大家带来以《混沌工程在云原生中间件稳定性治理中的设计与实践》为主题的精彩演讲。 当中间件出现抖动、异常、故障等稳定性问题时,业务可能就会遭受影响。而消息队列底层一般是分布式架构,其架构复杂, 严重依赖IAAS层的稳定性

    1K10编辑于 2022-06-17
  • 瞬时高并发系统设计:从流量治理稳定性保障的实战指南

    瞬时高并发系统设计:从流量治理稳定性保障的实战指南“直播间上链接 1 秒售罄,服务器直接报 503”“春运抢票刚点提交,页面就卡住不动”“赛事门票开放抢购,3 分钟内流量暴涨 100 倍,数据库直接宕机 某直播电商曾做过预判:某主播专场瞬时峰值约 5 万 QPS,结果实际开播后,因主播临时加推爆款,流量直接冲到 20 万 QPS,超出预设容量 4 倍,导致部分用户无法下单。2. 稳定性要求高:“崩一次影响巨大”瞬时高并发场景往往是 “业务关键节点”:比如春运抢票关系到用户能否回家,演唱会开票关系到平台口碑,一旦系统崩溃,不仅会引发大量用户投诉,还可能造成直接经济损失(如退款、赔偿 二、架构设计核心:全域流量治理,分层扛压瞬时高并发系统的设计核心不是 “硬扛流量”,而是 “让流量在每个环节都可控”—— 通过 “接入层削峰、应用层解耦、数据层保稳、基础设施弹性”,形成一套 “流量漏斗 4.

    61610编辑于 2025-09-25
  • 来自专栏机器人课程与技术

    机器人系统的稳定性(现代控制理论4

    在上一篇博文中,我们着重介绍了系统的能控性和能观性,对于机器人系统而言,还有一个非常重要的性质就是稳定性。 系统的稳定性对于同一研究对象而言,应用领域不同也存在差异性。 比如对于两轮差动移动机器人,我们可以研究其轨迹跟踪的稳定性,这时候这个机器人为轨迹跟踪系统,控制器工作为跟踪目标轨迹误差尽可能小速度尽可能快,当然它也可以多个机器人一块玩耍,组成多机器人系统,这时每个机器人都是多机系统的一部分 ,稳定性判定就更为复杂。 废话不多说,让我们开启机器人系统稳定性的学习吧。 ? 什么是稳定的系统,什么又是不稳定的系统?这的确很难回答。相关研究还在进行之中,这里给出一些成熟的理论。 ? 什么是“稳定”? 第二幅图,小朋友学骑车,两边会有辅助装置,防止摔倒,提升稳定性。 本讲围绕这五个方向展开吧,首先,看第一个: ? 自行车或者倒立摆小车,如果没有动力,比如人力或者电机驱动,能否在静止状态保持稳定呢?

    94720发布于 2021-03-03
  • 来自专栏TakinTalks稳定性社区

    SRE实战:如何低成本推进风险治理稳定性与架构优化的3个策略

    作者介绍 数列科技联合创始人、CTO——陆学慧 TakinTalks稳定性社区发起人。参编《信息系统稳定性保障能力建设指南1.0》和《稳定性保障服务商能力要求》。 上述两个痛点都指向同一个问题:公司的稳定性表现和投入在稳定性上的成本是正相关。由于目前风险管理的成本较高,所以大家被迫选择围绕故障来解决问题。 2.4.2 劣化的4个主要场景 劣化一般是由于应用的版本变更、数据量的增加逐步导致,一般包括:接口响应时间劣化、业务容量劣化、业务正确率劣化、部署架构劣化等等。 条消息堆积告警,每次堆积几十万条,基本消失 3)硬件成本降低:RT降低后,集群容量提升40%以上,整体硬件缩容了30% 四、总结与展望 通过上述案例,我们可以回顾之前提到的核心策略,即丰富数据、积累经验库和治理劣化场景 由于篇幅限制,还有一些业务架构和技术架构优化、日常发布中的劣化治理的案例无法一一分享。

    92610编辑于 2023-12-04
  • 来自专栏并发笔记

    手写dubbo框架4-服务治理(服务发现-zookeeper)

    本节涉及博客中代码的两个module,farpc-registry(服务治理)、farpc-cluster(集群管理)。 RuntimeException(e.getMessage(), e); } }} 以上则为服务发现的所有代码,意在模拟dubbo,而不是照抄dubbo,希望可以帮助大家对dubbo服务治理有一定的了解

    72441发布于 2019-07-15
  • 来自专栏Android 开发者

    平台稳定性里程碑 | Android 12 Beta 4 现已发布

    作者 / Dave Burke, VP of Engineering 平台稳定性里程碑 | Android 12 Beta 4 现已发布 今天,我们为大家带来了 Android 12 的第四个 Beta 我们现在正将重点转移到对系统的进一步打磨,以及提升性能和稳定性上。是大家一直以来分享的反馈让我们得以完善这个平台,并迎来今天的里程碑,再次感谢大家! 对于开发者来说,Beta 4 让我们抵达了 平台稳定性里程碑,这意味着 Android 12 的 API 和所有面向应用的行为都已最终确定。对于应用来说,现在的重点是解决兼容性和完善质量。 平台稳定性里程碑 Android 12 Beta 4 已经全面抵达 平台稳定性里程碑,这意味着 Android 12 中所有面向应用的接口和行为都已最终确定。 因此从 Beta 4 开始,您可以放心地发布应用的兼容性更新,因为平台不会再有变更。详见发布 时间表。

    66120编辑于 2022-03-09
  • 来自专栏希里安

    微服务治理?容器治理

    微服务治理的主要目标是确保整个系统的一致性、稳定性和安全性。 服务发现与注册: 微服务架构中的服务需要能够找到彼此,这通常涉及到服务发现和注册中心,以确保新服务的自动注册和发现。 自动化: 自动化是微服务治理的核心,包括自动部署、自动伸缩和自动化测试等。 容器治理(Container Orchestration): 容器治理是管理容器化应用程序的一系列策略和工具。 容器治理实例 容器治理是确保容器化应用程序在分布式环境中可靠运行的一组实践和工具。 容器治理: 安全性容器治理可以管理访问控制、证书管理和数据加密,以确保数据的保密性和完整性。 容器治理在这个示例中涵盖了容器的自动伸缩、容器的健康监控、容器的故障恢复、持久性存储连接以及安全性和访问控制等方面。这些措施确保了容器化应用程序的稳定性、性能和安全性。

    1.1K40编辑于 2023-10-30
  • 来自专栏实时流式计算

    【译文】数据治理与BI治理

    几十年来,数据治理一直是企业关注的焦点,并随着企业数据量的急剧增长,数据治理的重要性日益凸显。然而,大规模的有效BI治理一直是一个难以实现的目标,因为它需要比传统数据治理更广泛的关注点。 毕竟,如果给用户的交付物不一致,或者缺乏适当的上下文以确保业务用户正确地理解数据,那么所谓高质量、精心治理的数据又有什么价值呢? 有效的BI治理要求组织为数据和分析的治理建立流程。 BI门户的关键治理角色体现在以下两个场景:独立的BI治理平台,或与数据目录协同工作。 什么是数据治理? 数据治理是一组确保有效管理和利用数据的过程和技术的集合。 组织中的分析师和数据管理员使用数据治理工具来执行公司治理政策,来促进数据的正确使用。 应用这些工具进行数据治理需要大量的持续投资,因此许多组织希望从这些投资中获得可观的投资回报。 什么是BI治理

    1.5K40编辑于 2023-03-24
  • 来自专栏从救火到防火:大模型赋能云原生安全

    4 期:基于资产画像的治理闭环:从基础镜像到 CICD 的源头治理方法论

    引言大多数企业仍然停留在“补漏洞”的层面,但真正成熟的企业,安全治理不是从漏洞开始,而是从源头机制开始。这期我会讲一个你能直接在公司落地的“源头治理闭环体系”。 二、源头治理=不让漏洞流入生产,而不是到了生产再救火真正的治理不是:漏洞扫描→安全催修→开发修补→回归→发布而是:镜像基线→基础镜像治理→依赖链治理→CI/CD阶段截断风险→生产侧验证核心思想:“业务不应该部署带风险的镜像 四、治理闭环2:镜像依赖链治理(第二大漏洞爆发源)多语言项目常出现:Python多层依赖链NodeJS数千个npm包JavaJAR重复嵌套Golangvendoring冲突治理方式:引入SBOM建立依赖白名单锁定版本自动重建镜像漏洞只标记一次 六、治理闭环4:生产环境验证(防止绕过机制)包括:基础镜像识别证书签名验证运行时镜像一致性校验特权容器、危险能力检测公网暴露检查RBAC风险检测内部攻击路径体检这是最终兜底机制。 •第4期(本期):提出一套完整的治理闭环,从基础镜像到CI/CD,实现源头治理的方法论。•第5期(待发布):展望未来,讲解AI×云原生安全,即如何用大模型打造企业级的“风险决策引擎”,实现智能防火。

    6500编辑于 2025-12-30
  • 来自专栏橙子架构杂谈

    【服务治理】服务治理漫谈

    【服务治理】服务治理漫谈 0. 超长的调用链路路和多个单点系统,将会在服务规模上升时引发稳定性和性能问题。在丁丁租房和美团就多次发生类似的单点故障。 这一步到位地解决了单点长链路的问题,且能够在直连的基础上,进行更大的性能优化和稳定性的抬升。 我们需要什么样的服务治理 我们了解了什么是服务治理、服务治理是怎么演变发展的,这时候,我们不禁会想,我也要做服务治理!但是,请先停一下,请先问一下自己,我们需要什么样的服务治理4. 应用领域的指导原则 4.1 四个问题 网上有很多关于应该怎么拆分服务的文章,更多偏向技术层面。此处不加以赘述,我们讨论四个问题,也是经常困扰我们的四个重要问题: 应该在什么阶段进行拆分?

    4K31编辑于 2021-12-06
  • 来自专栏韩曙亮的移动开发专栏

    【数字信号处理】离散时间系统稳定性 ( 稳定性概念 | 稳定性用法 )

    文章目录 一、离散时间系统稳定性 二、离散时间系统稳定性实际用法 一、离散时间系统稳定性 ---- 线性时不变 LTI 系统 , 如果 " 输入序列 " 有界 , 则 " 输出序列 " 也有界 ; 充要条件 : \sum^{+\infty}_{m = -\infty} |h(n)| < \infty 二、离散时间系统稳定性实际用法 ---- 实际用途 : 设计一个 滤波器 , 设计完 滤波器参数 后 ,

    3.9K30编辑于 2023-03-30
  • 来自专栏全栈程序员必看

    服务治理

    服务治理可以说是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现。 1.阿里 – Dubbo 2.阿里 – HSF 3.腾讯 – Tars 4.JSF 5.CNCF – Linkerd 6.新浪 – Motan 7.istio 大部分(Linkerd除外、 除了这3个核心动作之外,其它的辅助操作还有统计上报、鉴权等等,这也是我们搭建一个服务治理框架需要实现的功能。从MVP的角度来说,注册、订阅、变更下发是最基础的核心功能。 服务治理的扩展 在企业中,我们可以针对服务治理做更多的扩展。比如:   1.基于版本号的服务管理,可以用于灰度发布。   2.请求的复制回放,用于模拟真实的流量进行压测。    4.更灵活的负载均衡和路由策略。   5.内置的熔断机制,避免整个分布式系统产生雪崩效应。

    1.2K30编辑于 2022-08-04
领券