为此,自2021年起,团队把面向腾讯内部几百款产品在演练实施过程中的经验和方法进行产品化,推出混沌工程产品腾讯云混沌演练平台,力求为客户提供故障注入能力和生命周期管理能力等实质性服务。 这些成果不断激励着我们提升混沌工程能力,共建稳定性治理体系。 五、结合专家服务,建设高可用架构容灾 随着产品化的发展,我们也将混沌工程能力扩展至专家服务领域。 结合腾讯海量业务运维经验及腾讯云产品所具备的容灾能力,高可用服务专家团队致力于为公有云客户提供高可用容灾建设方案,从方案设计、评审、实施以及混沌演练验收以达成客户在容灾RTO、RPO的可量化目标。 以下为本次会议的摘要内容: 圆桌会议——云时代的稳定性挑战|混沌工程|SRE 来自腾讯云高可用专家团队的周永飞参与“稳保行动·深圳站沙龙”下午场的圆桌会议,共同探讨了云时代云服务和云商应用的稳定性挑战, 六、腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患
答案是有的——混沌工程。 为何需要进行宕机混沌演练? 对于互联网行业从业者而言,服务中断无疑并不陌生。其影响极为重大且广泛,涉及日常生产生活的诸多方面。 腾讯云混沌演练平台(CFG),提供对腾讯云CVM进行开关机混沌演练,可模拟服务器宕机故障场景。 而主动地引入可控的服务器宕机故障,进行混沌演练,便是验证服务容灾恢复能力的高效方案。 故障演习原理 执行故障:调用腾讯云CVM开放API,发出开关机请求。 请求处理:腾讯云后端服务接收到请求后,对请求进行验证和授权。验证成功后,请求被路由到相应的虚拟化平台管理组件。 虚拟化平台管理:虚拟化平台管理组件根据请求执行相应的操作。 状态更新:虚拟机状态发生变化后,虚拟化平台管理组件通知腾讯云后端服务。后端服务将更新CVM的状态信息,并将结果返回。 快速开始 可前往腾讯云混沌演练平台,选择CVM 关机动作进行CVM主机宕机演习。
1 什么是混沌GameDay? GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。 混沌GameDay的最终目的是按照一定的规划,有序地对目标系统进行混沌演练,收集演练实验证据,以此来验证混沌工程稳态假说。 2 GameDay的准备 只要能对目标系统进行有计划的混沌演练的活动,并能收集到相关证据,都可以称为一次成功的混沌GameDay。您也可以按照如下步骤进行游戏的准备工作。 2.1 选择稳态假说 一次成功的GameDay必须要有至少一个明确的验证目标,即混沌工程稳态假说。一个稳态假说往往包含但不限于以下几点内容。 腾讯云的混沌工程 腾讯云混沌演练平台(CFG)也正是基于上述背景而诞生,汇集各行业成功案例和最佳实践,提供宝贵经验,提供模拟IaaS、PaaS、SaaS近百种故障注入场景。
如何开展混沌工程实验 腾讯云混沌演练平台(CFG),为您提供安全、易用的的故障注入服务,助您打造稳固如磐石的云架构系统。 无论您是独立开发者、运维工程师还是安全专家,腾讯云混沌演练平台都是您不可或缺的利器: 我们拥有丰富的故障动作库,能够模拟IaaS、PaaS、SaaS近百种故障注入场景,可视化的动作编排,让小白也能快速入门 ,轻松上手构建一个复杂场景的故障演练任务; 更值得一提的是,腾讯云混沌演练平台还拥有行业演练经验库。 无论您是初学者还是经验丰富的专家,我们都能满足您的需求。 你了解你的云上服务的稳定性边界吗?还在为云上稳定性而忧虑吗? 马上免费试用腾讯云混沌演练平台,体验一场真实的混沌工程实验吧! 点击链接,立即了解更多关于腾讯云混沌演练平台的信息,一起开启稳定性建设的新篇章!
引言 在微服务架构和云原生环境飞速发展的今天,应用的复杂度已经不是简单线性增长,而是呈现出指数级膨胀。 本文将深入探讨如何将混沌工程的方法论有效融入服务依赖治理的实践,打造更加稳定、可靠且具备高韧性的系统。核心问题在于:如何通过混沌工程的主动式故障注入,精准发现并解决服务依赖中的潜在风险? 交叉点:殊途同归 服务依赖治理和混沌工程并非泾渭分明的两个领域,而是相辅相成、互相补充的体系,最终目标都是提升系统的稳定性和韧性。 从被动防御到主动进化 将服务依赖治理与混沌工程深度融合,不是锦上添花,而是应对现代复杂系统挑战的必然选择。 、自愈的能力 在这个“云计算无处不在,微服务遍地开花”的时代,我们不能再被动等待故障发生,而是要主动去挑战系统的极限,提前打好“预防针”。
面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。 如今,腾讯互娱运营活动基本上所有的服务都是跑在腾讯云 TKE。受益于云原生的技术红利,服务的弹性伸缩,包括服务扩容、缩容的速度非常快,几分钟时间就可以从单副本扩展到一百个副本。 腾讯游戏混沌工程团队给出的答案是:把 PingCAP 开源的 Chaos Mesh 在腾讯云 TKE 落地,用以解决当前服务故障频率高、质量控制挑战大的问题。 同时,腾讯互娱现在还在使用混沌工程训练故障诊断机器人。当服务变复杂之后,故障的概率会变得更大。 腾讯互娱这边落地云原生混沌工程有半年左右,事实上混沌工程已经在腾讯互娱内部几乎所有的团队都推开了。
本文首先介绍了腾讯互娱面临的复杂的技术场景,然后介绍了腾讯互娱混沌工程团队基于 Chaos Mesh 打造的云原生混沌工程平台,最后分享腾讯互娱近半年混沌工程实践取得的收益。 面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。 如今,腾讯互娱运营活动基本上所有的服务都是跑在腾讯云 TKE。受益于云原生的技术红利,服务的弹性伸缩,包括服务扩容、缩容的速度非常快,几分钟时间就可以从单副本扩展到一百个副本。 腾讯游戏混沌工程团队给出的答案是:把 PingCAP 开源的 Chaos Mesh 在腾讯云 TKE 落地,用以解决当前服务故障频率高、质量控制挑战大的问题。 腾讯互娱这边落地云原生混沌工程有半年左右,事实上混沌工程已经在腾讯互娱内部几乎所有的团队都推开了。
我们推荐了混沌工程这一利器。介绍了腾讯云的混沌工程专家服务后,客户当即和我们组成了联合项目,在云防火墙上,实施混沌工程。 业界的这几种方式,在腾讯云客户服务的场景,都不符合要求,因为既没有在短时间内帮客户解决客户的诉求,也没有体现腾讯云专家的价值(如下表)。 最终结合对腾讯云产品深度理解、腾讯内丰富的混沌经验、业界的先进经验,输出了《腾讯云专家模式》的方法进行混沌工程建设。 各设计流派对比情况如下:图片2.2 腾讯云专家模式具体思路通过全面分析系统(明确目标系统、系统弱点探查),梳理出最有价值的实验项,弥补时间窗口小的问题基于混沌工程原则设计混沌实验、Gameday设计,最小化混沌实验风险单次实验的报告复盘 、持续迭代来提升实验的长期性2.3 腾讯云专家模式流程图图片----长文预警下面行文分为两部分:混沌工程设计方法论(3.混沌工程设计方法论)和基于方法论的实战(4.某新能源汽车云防火墙混沌工程实战)。
作者 | Eran Levy 译者 | 张卫滨 策划 | 丁晓昀 云原生技术的演进以及工程规模扩张的需求都在促使组织重组他们的团队,并 拥抱新的架构方式,如微服务。 这种先进的方式带来了巨大的价值,但是作为工程师,我们所编写的应用是一个更广阔的服务集合的一部分,这些服务建立在云端的某个平台之上。 作为云原生工程师,还需要不断调整对所依赖的云原生技术的认识和理解。除了正在使用的工具集,构建云原生应用还涉及到很多不断变化的组件,比如我们所依赖的平台、所使用的数据库等等。 待命的工程师要领导事件的处理,理解高层次的业务影响并进行沟通,如果需要特定的专家才能将系统恢复至正常功能状态,工程师要确保相关的团队和服务所有者能够尽快就绪来解决问题。 随着不断推进,我们开始利用混沌工具来达到这个目的。除了通过培训能够成为更好的云原生工程师之外,待命工程师们在轮班时也能够感到更加自如,并且熟悉了可用的工具,以便快速做出反应。
之后,混沌工程不断发展,逐渐发展为稳定性建设的一套完整的工程化解决方案。 所谓云上混沌工程,就是在云计算环境中开展传统的混沌工程实践,为构建于云环境中的业务系统提供稳定性保障。 腾讯云的云上混沌工程 腾讯云早在2021年就意识到混沌工程对于稳定性建设的科学意义,并在内部的各个产品以及服务中逐步开展混沌工程,成立「混沌蓝军」虚拟组织,积极的开展内部的云上混沌工程实践,并将沉淀的稳定性建设经验逐步开放到公有云 ,推出「腾讯云混沌演练平台」(后简称腾讯云混沌)。 腾讯云混沌异地多活容灾客户案例 上图便是一个针对云数据库腾讯云&用户IDC容灾混沌场景,通过引入「云数据库MySQL不可用」以及「云数据库Redis不可用」故障,模拟数据库单云灾难场景。 腾讯云混沌的故障能力 腾讯云混沌团队结合多年内部稳定性建设经验,与各个云产品团队通力合作,沉淀出百余种原子故障场景,并提供灵活的演练编排能力,可以轻松设计复合场景的混沌演练。
Netflix开发出Chaos Monkey来对系统进行随机试验来了解系统是否具有高可用性和容错性,而由此便诞生出”混沌工程“。 ---- 什么是混沌工程?混沌工程原则是什么? 不论企业是在微服务改造期还是中台战略部署期,混沌实践能够有效避免生产环境灾难,提升系统的容错率和可用性。 ---- 如何引入混沌工程? 除此之外,鉴于Netflix在服务化演进中的成功案例,我们来了解下Netflix开源的混沌工程试验框架Chaos Monkey究竟是什么? Netflix对混沌工程的成熟度从“复杂度”和“接受度”两个方面给出了定义,可以看到,混沌工程或试验不单单是方法论的引入,更是实践上的渗透。 通过小规模实践到大规模改造,混沌工程不是为了测试,更不是为了引入工具, 混沌工程会像一种文化,将扩散于范围更广的团队和组织。 ----
腾讯云混沌工程对于云计算应用案例成功入选“2021混沌工程先锋实践者” 腾讯云混沌演练平台(CFG)提供便捷、灵活、安全的混沌工程故障演习服务,除自动化故障注入外,还提供了观测指标,安全护栏等核心功能, 目前腾讯云混沌演练平台已提供服务器(CVM)、Kubernetes(TKE)、Mysql(CDB)、Redis(CRS)、负载均衡(CLB)等多款云产品的故障注入场景。 在稳定性四大核心领域:混沌工程、可观测性能力、全链路压测能力、应用多活能力中,腾讯云参与守护者团队,持续贡献并推动国内稳定性保障工作的标准制定和全面落地。 在会上,首届“混沌工程先锋实践者”优秀案例评选结果正式揭晓,腾讯云混沌工程对于云计算服务应用案例顺利入选。 TKE 重磅推出全链路调度解决方案 拥抱云原生,腾讯发布TCSS容器安全服务! 一个优秀的云原生架构需要注意哪些地方
出于这篇博客的目的,我想使用云原生的更技术性的定义;在这里,云本地被定义为一种架构,其中的组件是松散耦合的微服务,更具体地说,部署在Kubernetes和相关项目编排的容器中。 在本博客中,我想介绍一个相对较新的或较少使用的术语“云原生混沌工程”,它的定义是专注于(并构建于)Kubernetes环境、应用程序、微服务和基础设施的工程实践。 考虑到这一点,我想断言云原生混沌工程必然基于开源技术。 云原生混沌工程框架的四个原则 开源 - 该框架必须在Apache2许可下完全开源,以鼓励更广泛的社区参与和检查。 因此,混沌工程框架应该提供一个中心枢纽或仓库,在那里开源的ChaosExperiment是共享的,并通过代码协作是可行的。 介绍Litmus Litmus是Kubernetes的云原生混沌工程框架。 Litmus的其它用例用于在CI流水线和生产环境中引发混沌。 总结 随着chaos operator、chaos CRD以及chaos hub的引入,Litmus具备了云原生混沌工程的所有关键要素。
ChaosMeta 是蚂蚁集团开源的一款云原生混沌工程平台。它凝聚了蚂蚁集团在公司级大规模红蓝攻防演练实践中多年积累的方法论、技术以及产品。 ,或者对云上/云下的目标进行管理以及注入故障,都有相应的部署方案可以满足 丰富的故障注入能力,云原生混沌工程 由于蚂蚁集团对攻防演练的高度重视,促成了大规模高频率的演练活动,进而推动了各种各样的故障注入能力建设 并且因为蚂蚁内部有着庞大的基础设施规模,加上金融的低容错性,所以对Kubernetes、中间件等基础设施的稳定性要求非常高,因此蚂蚁混沌工程在云原生领域沉淀了比较丰富的故障能力以及演练经验。 平台功能强大,支撑完整“混沌工程生命周期”,面向自动化 ChaosMeta 覆盖准入检测、流量注入、故障注入、故障度量、故障恢复、恢复度量等多个阶段的平台能力,作为“自动化混沌工程”的技术基础。 度量能力是实现混沌工程自动化以及智能化的关键能力。
为您开箱体验「腾讯云顾问」的混沌演练功能:· 可视化云架构故障演练,故障注入更直观、更安全· 丰富的100+故障场景和行业模板库,灵活编排,快速复用· 提供行业监管标准级的演练报告,复盘总结,治理价值看得见 【开箱吧腾讯云】云顾问系列节目敬请留意本专栏发布视频。 完整体验云巡检功能,请访问链接:https://console.cloud.tencent.com/advisor
看腾讯云鼎实验室如何化解这一场场危机挑战,如何做好安全守护者。 九月初,腾讯云已组织安全专家,从多方面积极支持金砖国家领导人会晤期间云上安全。 本次国际性事件的成功护航印证了腾讯云的专业能力以及此套方案的成熟性,目前腾讯云已正式对外发布安全专家服务。 什么是安全专家服务 腾讯云安全专家服务由云鼎实验室为主力的安全专家队伍提供安全咨询、渗透测试服务、应急响应等服务,帮助用户获得合适的安全解决方案、发现潜在安全威胁和提升用户的安全防护能力、帮助用户恢复业务 答案:All 行业没有限制,我们会帮助客户解决上云前,上云中和上云后的各种问题,帮助用户提供业内优秀的解决方案和经验。 腾讯云安全专家服务 能给客户带来什好处? 腾讯云安全专家服务能够协助客户避免在自身安全建设中不知道如何规划、设计、建设等问题,同时也帮助客户在安全的建设过程中减少投入与降低损失,解除客户在上云前,上云中与上云后的安全疑虑。
混沌工程工具系列传送门: 1、 混沌演练工具Chaos-mesh与Chaosblade技术实现与原理分析(1)-腾讯云开发者社区-腾讯云 2、 混沌工程工具:chaos-mesh注入项原理分析( 2)-腾讯云开发者社区-腾讯云 3、 混沌工程工具:chaosblade在服务器上注入项原理分析(3)-腾讯云开发者社区-腾讯云 4、 混沌工程工具:业务代码注入原理(4)-腾讯云开发者社区-腾讯云 5、 混沌工程工具:Chaosblade Java业务代码注入原理(5)-腾讯云开发者社区-腾讯云 6、 混沌工程工具:混沌工程实施过程及持久价值(7)-腾讯云开发者社区-腾讯云 7、 混沌工程工具 :混沌工程定位及原则梳理(8)-腾讯云开发者社区-腾讯云 8、 混沌工程工具:一个混沌工程设计的例子(9)-腾讯云开发者社区-腾讯云 初版设计 设计原则 我们面对的系统十分庞大,微服务是数以千计,底层硬件也是数以千计 参考NF的解决方案,主要是使用FMEA 故障模式与影响分析的方法,来最终确定在哪里注入实验,能够获得最大的收益(混沌工程中称为能让团队学习到新东西) 所以第一版是采用专家设计模式: 1、 掌握待实验系统的知识
近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯云混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 其中,腾讯云混沌演练平台凭借在腾讯云自研产品稳定运营领域工作中积累的实战经验和丰富成果,斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 随着腾讯云业务的快速发展,规模逐渐增大,大规模断电断网事件也随之频发,导致腾讯云品牌形象和客户利益受到了损害,也引发了对云产品容灾能力的思考。由此,混沌练平台应运而生。 以腾讯云机房断电等重大故障演练实践为例,腾讯云混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性: 1)云产品服务稳定性:故障注入以后 混沌工程平台能力评估 除了斩获三项优秀案例外,在中国信通院“2022下半年系统稳定性保障领域评估-混沌工程平台能力评估”中,腾讯云混沌演练平台(CFG)还凭借灵活、便捷、完善的故障演习功能和全面的安全防护保障能力
本文首先介绍了对混沌工程这一概念的描述,分享了混沌工程的动机和实践方式以及 Chaos Mesh 项目的发展情况。 干货十足,enjoy~本文首先介绍了对混沌工程这一概念的描述,分享了混沌工程的动机和实践方式以及 Chaos Mesh 项目的发展情况。 干货十足,enjoy~ 混沌工程概述 现在的技术潮流在向着大规模集群、超复杂的分布式系统与微服务架构演进。在演进的过程 当中,虽然给我们带来了不少的便利,同时也带来了许多的麻烦。 混沌工程历史 混沌工程已经走过了十一个年头了。从最初Netflix提出这个概念,到 16 年 Gremlin 给出了 混动工程的商业产品,试图形成混沌工程服务的商业模式。 混沌工程步骤 如果想要为你管理的项目引入混沌工程,那么可以依照以下五步的循环: [up-cddfb5433d442f94551ed06303520a92cfc.png] 不断进行这五步的循环,将对工程的稳定性产生明显的提升
腾讯云最具价值专家,简称TVP(Tencent Cloud Valuable Professional),是腾讯云颁发给技术专家的一项荣誉认证,以此感谢他们为推动云计算的发展所作出的贡献。 这些技术专家来自于各个技术领域和行业,他们热衷实践、乐于分享,为技术社区的建设和推动云计算的传播做出了卓越的贡献。 前奏 2018年12月15日,在北京的腾讯云+社区开发者大会上,作为腾讯云构建开发者生态的重要战略,TVP计划正式发布。 续章 在过去,相对于腾讯云产品的百花齐放,腾讯云的技术一直是在舞台幕后默默耕耘着。 如今,腾讯云以技术打破边界,从幕后走向前台,怀揣更加开放、分享的态度,共同促进整个产业的技术发展。 奖品如下: 第1名:腾讯定制蓝牙音箱 第2-5名:腾讯鼠年定制公仔 第6-10名:腾讯云定制公仔 领取规则:集赞完成后8月10日18:00前截图发至公众号后台,审核确认后即会统一邮寄奖品~ 点击阅读原文