支付宝2015年发生了大规模的宕机事件,原因是杭州市萧山区某地光纤被挖断导致,为确保异地容灾、多活,后面专门进行了全链路单元化改造,整个交易链路都进行了单元化改造,并且经常在大促前夕进行单机房演练;
文章目录 一、离散时间系统稳定性 二、离散时间系统稳定性实际用法 一、离散时间系统稳定性 ---- 线性时不变 LTI 系统 , 如果 " 输入序列 " 有界 , 则 " 输出序列 " 也有界 ; 充要条件 : \sum^{+\infty}_{m = -\infty} |h(n)| < \infty 二、离散时间系统稳定性实际用法 ---- 实际用途 : 设计一个 滤波器 , 设计完 滤波器参数 后 ,
药品的稳定性是指药品稳定保持其物理、化学、生物学性质及其疗效和安全性的能力。对药品的稳定性要求属于药品管理法规规范重点,各国的药典和新药注册审批等都对药品的稳定性研究有详细的规定。 依据考察目的的不同,上市产品稳定性考察可分为常规稳定性考察、刚上市产品的稳定性考察和特殊稳定性考察。 常规稳定性考察:针对正常生产条件下的常规产品而进行的持续稳定性考察。 新上市产品的稳定性考察:新产品上市,对正式生产销售前三批产品进行持续稳定性考察。 稳定性考察批次和取样时间点 常规稳定性考察:通常要求同一品种每个规格至少考察1批。对于稳定性较差(如容易降解)的产品,应该根据该产品历史稳定性数据适当增加考察批数。 稳定性数据的评价 稳定性考察有助于发现产品稳定性变化趋势,确保产品在运输、储存和使用过程中的质量。
二、大促时稳定性保障 大促的时候因为流量比往常高几倍,甚至是几十倍,更需要保证系统稳定性。
ChaosBlade可针对多达7个场景开展故障注入实验,但网上官方的中英文文档质量欠佳,内容缺失,真心没有站在一般用户的角度来写,只能通过运行blade命令的help了解究竟有什么功能。 图片 一句话介绍 ChaosBlade是阿里巴巴开源的针对7个检验软件系统稳定性场景的混沌工程故障注入开源工具:主机基础资源、CRI容器、K8S平台、Java应用、C++应用、阿里云平台、其他服务。 场景7:其他服务 可注入故障包括增加延迟和抛异常,可以针对如elastic search, hbase, http, mongodb, mysql等近30种服务注入故障。 优势 支持多达7个故障注入场景。 劣势 网上的中英文文档描述过于简略。每个功能往往就一句话。只能把工具装上,运行起来,通过help参数,逆向工程来发现有什么功能。 案例 国内有金融行业的用户,已经基于ChaosBlade开发了混沌工程工具平台,在测试环境注入故障,检验基础设施和容器平台的稳定性。
软件系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。 我经常因为某些本该24x7运作的系统宕机,而在半夜三点受到惊扰。 关于系统设计和架构的书籍往往只告诉你怎样满足功能需求,的确这类书籍对你在QA面前过关会有很大帮助。 软件系统的稳定性,主要决定于整体的系统架构设计,然而也不可忽略编程的细节,正所谓“千里之堤,溃于蚁穴”,一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃。
在内存回收方面消耗;2、高阶内存不足优化:整理碎片化内存,保证有充足高阶内存,降低CPU在内存碎片整理消耗;经过上述优化措施后,ES系统的读写成功率达到99.999%,超出当前的可用性要求,保障ES在生产环境稳定性
默认是604800000(7天)。这允许每周⼀次的⽣产者作业维护它们的id max.transaction.timeout.ms 事务允许的最⼤超时。 上图中,HW值是7,表示位移是07的所有消息都已经处于“已提交状态”(committed),⽽LEO值是14,813的消息就是未完全备份(fully replicated)——为什么没有14? 此时,Leader端处理流程如下: Leader写Log(⾃动更新Leader LEO) 尝试唤醒在purgatory中寄存的FETCH请求 尝试更新分区HW 7.
本期我们来谈下稳定性生产这个话题,稳定性建设目标有两个:降发生、降影响,在降发生中的措施是做到三点:系统高可用、 高性能、 高质量,三高问题确实是一个很热的话题,里面涉及很多点。 一、分布式系统稳定性建设模式那怎样完成降发生和降影响两个目标呢,那就需要一个好的建设模式,稳定性建设模式是指在开展稳定性建设工作过程中应重点关注的技术方法或方案,这里面有一系列技术模式来支撑稳定性能力实现 二、分布式系统稳定性建设路径那我们在实际工作中怎样进行建设呢?需要做两件事:需求分析和实现分析。(一)稳定性建设需求分析需求分析可以分为确认分析对象主体和确定服务需求两部分。 2、建设组织保障能力包括人力资源支持、技术资源支持、组织优化3、建设稳定性保障体系包括如下内容:在建设之后,我们可以依照如下指标来进行衡量建设的效果以上就是我们本期稳定性生产方面的内容了,故障的发生是复杂多样的 ,定义业务或者服务的slo以结构化,来保障稳定性能力。
=======================================================================
稳定性对产品的重要性不言而喻。 而作为质量保障,在稳定性测试方面的探索也在不断演化。 记得两年前我们做稳定性测试还是基于恒定的压力,7*24小时长时间运行,关注的指标无非是吞吐量TPS的抖动、响应时间的变化趋势,以及各种资源是否泄露。 稳定性测试的场景设计简单,和线上实际运行有较大的出入。带来的直接结果是稳定性测试发现的问题比较有限,做完之后仍然没有特别大的信心。 图片 那稳定性测试究竟该如何做?别人在怎么做? 02 对稳定性测试三个阶段的定义 目前稳定性测试采用的性能测试场景设计使用混合场景模式,基于产品业务模型或用户行为来定义场景,包括产品的典型业务、典型业务之间的组合关系、典型业务之间的比例等,这里不详细介绍 3.最大并发数需要配置,默认为初始并发数的2倍 4.最小并发数需要配置,默认为初始并发数的1/2 5.最大最小并发数保持时间,需要配置,两段时间相等 6.周期重复数,需要配置,默认重复两次 7.
我所在的公司为手机公司,每年新品销售的时候,流量也是非常大,是平时的10倍,甚至上百倍,今天来聊一聊稳定性相关的话题,谈下如何做好稳定性。
2.模型稳定性,主要评价指标包括PSI和CSI等。 之前阐述了模型本身的评价指标:混淆矩阵、F1值、KS曲线、count_table和ROC曲线AUC面积,本文介绍模型稳定性指标PSI。 一、详细介绍PSI 1 什么是PSI PSI(Population Stability Index):群体稳定性指标,是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。 为什么要关注模型的稳定性? 在风控建模中的IV和WOE一文中我们提到,可以用逻辑回归区分好坏客户的前提假设是“历史样本和未来样本服从同一总体分布”。 而且,在模型训练过程中,虽然有测试集衡量模型的稳定性,但仍不能排除模型存在过拟合的情况。 所以我们要关注模型的稳定性。 2 PSI计算公式 不管是变量PSI还是模型PSI,其底层逻辑是一样的。主要是量化评估观察样本(actual)和开发样本(expect)的分布差异。
之前的文章讲了优雅下线发布稳定性-优雅下线,今天讲优雅上线 优雅上线也叫:「无损上线」,「延迟发布」,「延迟暴露」。 总结:服务发布的稳定性已讲了优雅上下线,但是实际工作中不是做好这两样就行了,具体情况需要具体分析,下篇文章继续讲稳定性的内容:流量预热。
现在上上下下组成了一支牛人团队,请来了其他部门很多资深高手进行封闭开发,确保我们系统的稳定性。 选择一份工作,必然要考虑的是:我们是做基础设施的,还是做平台的,还是做核心链路的。 基础设施最重要的指标是稳定性、性能、扩展性。平台讲究多业务,通用性,人效。所谓人效就是我这个平台有些自动化的东西不能满足需求,需要靠手工来完成,这样开发人员的人效就低。 checklist: 核心链路最重要的是稳定性。如果拿到一手烂代码,到了非重构不可的程度。那么重构之前要弄明白几个问题:原系统TOP5的主要问题是哪些?我重构了就能解决这些问题吗? 日志 建议应用日志不超过磁盘的30%,使用日志组件的性能和稳定性? 其他组件,如databus 是否有监控?是否单点?自动fail over? 依赖内外部系统 下游系统1 timeout配置? 组件和版本: 维护系统稳定性要注意选择合适组件和版本。 比如Apache Tomcat被纰漏有高危漏洞。
背景 最近负责的项目已经到达10万 QPS的大关了,这么高的QPS,对系统的稳定性要求也更高了。 所以准备写一下关于发布稳定性的经验文章,今天先来说说优雅下线。
之前的文章讲了优雅下线发布稳定性-优雅下线,今天讲优雅上线 优雅上线也叫:「无损上线」,「延迟发布」,「延迟暴露」。 总结:服务发布的稳定性已讲了优雅上下线,但是实际工作中不是做好这两样就行了,具体情况需要具体分析,下篇文章继续讲稳定性的内容:流量预热。
背景 为什么需要客户端稳定性测试? 稳定性测试是在保证功能完整正确的前提下,必不可少的一项测试内容,通过对软件稳定性的测试可以观察在一个运行周期内、一定的压力条件下,软件的出错机率、性能劣化趋势等。 稳定性问题带来的危害? 目标 客户端稳定性 Crash 降低 20% 版本灰度阶段稳定性问题闭环率 100% 日常运营稳定性测试工具,拦截集成和灰度 Bug 建立统一稳定性测试能力 技术方案设计 方案调研 1、Google Monkey 发版流程 伴随客户端发版节奏,从需求上车后到构建完成集成包,自动化触发稳定性测试任务。发现稳定性问题 会自动提交 Bug 并且指派给研发同学,可以通过质量大盘全局的分析版本趋势、执行次数等指标数据。 在Jenkins中创建稳定性测试任务,编写构建脚本和执行测试策略。
背景 最近负责的项目已经到达10万 QPS的大关了,这么高的QPS,对系统的稳定性要求也更高了。 所以准备写一下关于发布稳定性的经验文章,今天先来说说优雅下线。
前言 计算公式:系统稳定性计算公式(年度): (100 - (故障分钟数 / 全年的分钟总数 * 100)) % 说明: 期望一年能达到的系统稳定性为: 99.99%,允许出现问题的最长时间是:52.56 分钟; 期望一个季度能达到的系统稳定性为:99.99%,允许出现问题的最长时间是:17.28分钟。