支付宝2015年发生了大规模的宕机事件,原因是杭州市萧山区某地光纤被挖断导致,为确保异地容灾、多活,后面专门进行了全链路单元化改造,整个交易链路都进行了单元化改造,并且经常在大促前夕进行单机房演练;
文章目录 一、离散时间系统稳定性 二、离散时间系统稳定性实际用法 一、离散时间系统稳定性 ---- 线性时不变 LTI 系统 , 如果 " 输入序列 " 有界 , 则 " 输出序列 " 也有界 ; 充要条件 : \sum^{+\infty}_{m = -\infty} |h(n)| < \infty 二、离散时间系统稳定性实际用法 ---- 实际用途 : 设计一个 滤波器 , 设计完 滤波器参数 后 ,
药品的稳定性是指药品稳定保持其物理、化学、生物学性质及其疗效和安全性的能力。对药品的稳定性要求属于药品管理法规规范重点,各国的药典和新药注册审批等都对药品的稳定性研究有详细的规定。 依据考察目的的不同,上市产品稳定性考察可分为常规稳定性考察、刚上市产品的稳定性考察和特殊稳定性考察。 常规稳定性考察:针对正常生产条件下的常规产品而进行的持续稳定性考察。 稳定性考察批次和取样时间点 常规稳定性考察:通常要求同一品种每个规格至少考察1批。对于稳定性较差(如容易降解)的产品,应该根据该产品历史稳定性数据适当增加考察批数。 新产品稳定性考察:按照企业规定的稳定性考察项目,在生产之日起的第3、6、9、12、18、24、36、48个月进行全项检查,直至产品有效期后一年。 稳定性数据的评价 稳定性考察有助于发现产品稳定性变化趋势,确保产品在运输、储存和使用过程中的质量。
二、大促时稳定性保障 大促的时候因为流量比往常高几倍,甚至是几十倍,更需要保证系统稳定性。 我们先看下Redis主、从同步的过程: 1)主保存一个快照,保存到一个文件中; 2)主将1产生的文件发送给从; 3)从将RDB文件加载到内存中; 4)主在完成1的时候同时将每次的命令写入到一个缓冲区中 3、client-output-buffer-limit slave 限制从分配的缓冲区的大小,因为一个从也是主的一个客户端。 这个配置有3个参数 hard limit: 缓冲区大小的硬性限制。 在大促的时候,为了防止主从连接断开,这个也可以适当调整大小,具体参数自己的业务场景可以容忍的断开时间,这个涉及到数据一致性问题,一般不建议设为3个0,即永不超时并且缓冲区不限制大小。 次、不主动刷新3种,根据业务可以接受宕机数据丢失多久来配置,一般来说1s刷新基本上满足大部分的场景。
测试环境照旧:主控端MacStudioM3Ultra,被控端i9-14900K+RTX5090,千兆局域网+5G公网双场景实测。所有软件均升级到2026年3月最新版本。
软件系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 软件系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。
如何在不改造业务的前提下,迅速提升集群资源利用率,在提升部署密度的同时保证延迟敏感和高优业务的稳定性和服务质量不受干扰,Crane 混部能力给出了答案。 Crane 提供了高优敏感业务与低优批处理业务的混部能力,能将集群利用率提升 3 倍! 混部的核心挑战 所谓混部,就是将不同优先级的工作负载混合部署到相同集群中。 maxNumOfSpectrumItems: 20 minNumOfSpectrumItems: 10 historyLength: 3d 该类型 Job 使用的资源是集群中的闲置资源,不占用集群/节点真实的剩余可调度量,在发生资源竞争时,该部分资源会被优先回收,保证正常使用节点资源的业务的稳定性。 /gocrane.io/zh-cn/docs/tutorials/node-resource-tpolology-scheduler-plugins/) 什么是 Crane 为推进云原生用户在确保业务稳定性的基础上做到真正的极致降本
本期我们来谈下稳定性生产这个话题,稳定性建设目标有两个:降发生、降影响,在降发生中的措施是做到三点:系统高可用、 高性能、 高质量,三高问题确实是一个很热的话题,里面涉及很多点。 一、分布式系统稳定性建设模式那怎样完成降发生和降影响两个目标呢,那就需要一个好的建设模式,稳定性建设模式是指在开展稳定性建设工作过程中应重点关注的技术方法或方案,这里面有一系列技术模式来支撑稳定性能力实现 3、部署架构分析稳定性建设工作开展前需分析各个实现组件的生产部署架构,明确系统有哪些部分组成,以及明确系统间的协作关系,如集群划分、集群的 大小、集群IDC分布、网络拓扑等4、访问模式与访问量分析如果访问量 2、建设组织保障能力包括人力资源支持、技术资源支持、组织优化3、建设稳定性保障体系包括如下内容:在建设之后,我们可以依照如下指标来进行衡量建设的效果以上就是我们本期稳定性生产方面的内容了,故障的发生是复杂多样的 ,定义业务或者服务的slo以结构化,来保障稳定性能力。
事务操作 在Kafka事务中,⼀个原⼦性操作,根据操作类型可以分为3种情况。 思考:m3怎么办呢? 两种情况: A重试,重试成功了,m3就恢复了,但是乱序了。 A重试不成功,此时数据就可能丢失了。 如果Replica都死了怎么办? Leader LEO 第三次Follower FETCH处理完成 2 2 未写⼊新数据 3 Remote LEO 第三次Follower FETCH处理完成 1 2 第3次fetch中offset为2 3 Leader HW 第三次Follower FETCH处理完成 1 2 min(RemoteLEO=2,LeaderLEO)=2 3 Follower LEO 第三次Follower FETCH处理完成 如Leader端记录序列:m1,m2,m3,m4,m5,…;Follower端序列可能是m1,m3,m4,m5,…。
在内存回收方面消耗;2、高阶内存不足优化:整理碎片化内存,保证有充足高阶内存,降低CPU在内存碎片整理消耗;经过上述优化措施后,ES系统的读写成功率达到99.999%,超出当前的可用性要求,保障ES在生产环境稳定性 五、参考1、Node Hot threads API2、Physical Page Allocation3、Describing Physical Memory
稳定性对产品的重要性不言而喻。 而作为质量保障,在稳定性测试方面的探索也在不断演化。 稳定性测试的场景设计简单,和线上实际运行有较大的出入。带来的直接结果是稳定性测试发现的问题比较有限,做完之后仍然没有特别大的信心。 图片 那稳定性测试究竟该如何做?别人在怎么做? 02 对稳定性测试三个阶段的定义 目前稳定性测试采用的性能测试场景设计使用混合场景模式,基于产品业务模型或用户行为来定义场景,包括产品的典型业务、典型业务之间的组合关系、典型业务之间的比例等,这里不详细介绍 另外,关于稳定性测试场景的设计还有比较大的优化和提升空间,这个后面会畅谈下。 图片 我们对压力变化模型的不精确定义为: 1.初始并发数需要配置,保持时间默认30min 2.上升时间T需要配置 3.最大并发数需要配置,默认为初始并发数的2倍 4.最小并发数需要配置,默认为初始并发数的
=======================================================================
我所在的公司为手机公司,每年新品销售的时候,流量也是非常大,是平时的10倍,甚至上百倍,今天来聊一聊稳定性相关的话题,谈下如何做好稳定性。 3、避免不合理的调用 常见问题有: 循环调用服务; 调用接口过多(见到一个页面下来就调用4,5个接口的) 常见的方案有: 1)、缓存 一些访问量特别大的,对数据一致性要求没那么高的,可以通过缓存来降低压力 3)接口合并 将一些小的接口做聚合,尽量减少和后端的交互。 三、削峰 一些关键场景同时访问量特别大,就需要采用削峰了,像添加购物车型、保存订单按钮,常用做法有: 1、验证码 2、排队 3、随机延迟 即点按钮后,随机延迟1-3秒才提交请求 这个可以根据自己的业务情况去选择 评价一个故障预案是否好有几个标准: 1、是否可执行 即每一项做的事情一定是具体的步骤,如执行什么shell命令,还是在某个后台操作什么东西 2、责任到人 3、要覆盖所有核心场景 一般分2种:可预知的和不可预知的
2.模型稳定性,主要评价指标包括PSI和CSI等。 之前阐述了模型本身的评价指标:混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积,本文介绍模型稳定性指标PSI。 一、详细介绍PSI 1 什么是PSI PSI(Population Stability Index):群体稳定性指标,是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。 为什么要关注模型的稳定性? 在风控建模中的IV和WOE一文中我们提到,可以用逻辑回归区分好坏客户的前提假设是“历史样本和未来样本服从同一总体分布”。 而且,在模型训练过程中,虽然有测试集衡量模型的稳定性,但仍不能排除模型存在过拟合的情况。 下面是按等宽计算PSI的具体实例: 3 PSI阈值衡量标准 两个样本间的差异越小,PSI值越小,代表越稳定,一般来说, PSI<0.1,样本分布有微小变化,变量较稳定可以入模,或模型较稳定可以不做调整
背景 为什么需要客户端稳定性测试? 稳定性测试是在保证功能完整正确的前提下,必不可少的一项测试内容,通过对软件稳定性的测试可以观察在一个运行周期内、一定的压力条件下,软件的出错机率、性能劣化趋势等。 目标 客户端稳定性 Crash 降低 20% 版本灰度阶段稳定性问题闭环率 100% 日常运营稳定性测试工具,拦截集成和灰度 Bug 建立统一稳定性测试能力 技术方案设计 方案调研 1、Google Monkey 但是取消后不利于结果的查看),运行起来自然就慢了; 使用门槛高:正因为使用灵活性的问题,也造成了使用门槛的提高,主要基于 YAML 文件中使用 Appium 的相关技术知识进行配置,这就对使用者有了一定的技术要求; 3、 同时兼容 Android 5-11,兼容国内各厂商定制化的 Android 系统及原生 Android 系统 2、事件快速注入 继承原生 Monkey 的优势,快速点击,每秒最高可发送 12 个事件 3、 专家系统 不同业务线支持不同的个性化需求,业务深度定制化 4、智能化测试 基于 model-based 边遍历边建模,利用强化学习等算法做高收益决策 5、跨平台 支持非标准化控件,YOLOv3、ocr、
背景 最近负责的项目已经到达10万 QPS的大关了,这么高的QPS,对系统的稳定性要求也更高了。 所以准备写一下关于发布稳定性的经验文章,今天先来说说优雅下线。
之前的文章讲了优雅下线发布稳定性-优雅下线,今天讲优雅上线 优雅上线也叫:「无损上线」,「延迟发布」,「延迟暴露」。 总结:服务发布的稳定性已讲了优雅上下线,但是实际工作中不是做好这两样就行了,具体情况需要具体分析,下篇文章继续讲稳定性的内容:流量预热。
之前的文章讲了优雅下线发布稳定性-优雅下线,今天讲优雅上线 优雅上线也叫:「无损上线」,「延迟发布」,「延迟暴露」。 总结:服务发布的稳定性已讲了优雅上下线,但是实际工作中不是做好这两样就行了,具体情况需要具体分析,下篇文章继续讲稳定性的内容:流量预热。
现在上上下下组成了一支牛人团队,请来了其他部门很多资深高手进行封闭开发,确保我们系统的稳定性。 选择一份工作,必然要考虑的是:我们是做基础设施的,还是做平台的,还是做核心链路的。 基础设施最重要的指标是稳定性、性能、扩展性。平台讲究多业务,通用性,人效。所谓人效就是我这个平台有些自动化的东西不能满足需求,需要靠手工来完成,这样开发人员的人效就低。 checklist: 核心链路最重要的是稳定性。如果拿到一手烂代码,到了非重构不可的程度。那么重构之前要弄明白几个问题:原系统TOP5的主要问题是哪些?我重构了就能解决这些问题吗? 日志 建议应用日志不超过磁盘的30%,使用日志组件的性能和稳定性? 其他组件,如databus 是否有监控?是否单点?自动fail over? 依赖内外部系统 下游系统1 timeout配置? 组件和版本: 维护系统稳定性要注意选择合适组件和版本。 比如Apache Tomcat被纰漏有高危漏洞。
节点质量优先关键因素:稳定性与低丢包率地域就近性节点质量直接决定成功率与尾部时延网络路径优化优化策略:选择更短 AS 路径合理的 BGP 出口选择区域就近接入减少 RTT(往返时延)握手优化协议级优化: HTTP/2、HTTP/3:复用连接与 0-RTT/1-RTT 握手显著降低建连成本[11][8]TLS 1.3:缩短握手往返,提升首次请求完成时间[3]连接复用与池化配置策略:依据并发水平(simultaneous