首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏京东技术

    混沌演练实践(一)

    Tech 导读 本文从整体介绍了混沌演练的实践流程,读者可以通过本文了解到混沌实践的典型演练场景、重要考核指标以及风险控制方案等。 1.3 混沌演练的价值 应用混沌演练可以对系统抵抗扰动并保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障系统更好地抵御生产环境中的失控条件,提升整体稳定性。 图1 混沌演练的价值 02 混沌演练实践 理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值 :演练中发现问题要及时恢复,演练后对模拟故障的实例机器进行重启恢复,确保机器正常运行,各项性能指标恢复; 图2 混沌演练平台介绍 2.2 初次演练实践 2.2.1 准备阶段 混沌演练准备阶段是设计演练策略 图8 演练重点关注指标 3.3 关注风险控制 混沌演练会对业务和系统产生破坏性,为了限制发现应用程序漏洞的成本,避免不必要的损坏和超出合理测试允许的实际损失对混沌演练做好风险控制是非常必要的

    86120编辑于 2023-09-21
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌演练】阅文游戏:新游上线混沌演练实践

    ,腾讯云侧安排售后技术专家进行现场派驻提供技术支持制定应急预案腾讯云售后技术专家根据演练项提供预期告警表现和预期演练结果,并和阅文游戏侧运维团队设计回切方案及紧急恢复方案(3)实施演练过程混沌演练涉及产品众多 为此次演练腾讯云混沌团队提供基于混沌工程原理及腾讯云最佳实践的故障演练平台,内含丰富的故障动作库和典型的行业经验模板,提供高效的可视化演练和可靠的安全防护策略,并在结束演练后提供完备的演练报告。 创建演练任务 根据预先制定的演练方案,在腾讯云混沌演练平台上提前创建好演练任务,包括选取经验模板,编排动作组,选择演练实例对象,配置动作执行方式和监控指标执行故障注入云顾问·混沌演练平台提供可视化视图, 从观测结果可以看出混沌演练平台故障注入成功,目标实例均呈现出应有的表现,并能按照预期进行切换,完全模拟出了预期的故障场景 四、 混沌演练的收益通过游戏服+平台服的多次混沌演练,该款游戏高可用架构改造后的系统稳定性和可靠性得到了有效验证 同时通过多次跑完演练流程,从制定计划、准备环境、正式演练到复盘总结,大大地完善了混沌演练流程的规范性,提升整体运维效率。

    72320编辑于 2024-05-29
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】欢乐互娱:新游上线混沌演练实践

    三、 混沌故障演练过程 在新游上线的背景下,欢乐互娱携手腾讯云混沌演练平台,通过梳理游戏行业痛点问题,结合业务背景,重点提炼出了服务器、网络、数据库等场景下的故障容灾演练,以充分评估新游戏产品的稳定性表现 腾讯云混沌团队依托内部实践经验和对行业痛点的深刻洞察,提供针对性的故障场景方案与故障动作编排,实现低成本、高效率的混沌演练,此次欢乐互娱新游演练包含以下核心演练场景: 1. 在腾讯云混沌演练平台(CFG)上,业务团队可以轻松完成实例选取、演练场景动作编排、可视化故障注入和演练报告等全流程演练。 五、 腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)是一款结合了腾讯内部实践的针对腾讯云上资源进行混沌工程实践的SaaS产品。 附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持

    1.2K110编辑于 2024-03-13
  • 来自专栏FunTester

    混沌工程和故障演练

    混沌工程和故障演练 混沌工程是近年来新出现的概念,主要用于稳定性方面的研究,英文全称为chaos engineering,由网飞公司最先提出。 混沌工程是一门学科,提供了基本的理论指导。而故障演练混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。 故障演练的实施要点 混沌工程为稳定性验证实验提供了可实践的指导。 如果要将混沌工程落地实践,首先要有一个快速、方便的故障注入工具,然后结合混沌工程的理论进行故障演练,从而提高系统的稳定性。 2.建立稳定性指标 既然故障演练混沌工程的实践,那么所有的演练都要站在混沌工程“建立一个围绕稳定状态行为的假说”的基础之上开始设计。 很多大型互联网公司开源了自己的混沌工程工具,也公开了自己的故障演练方案,但是故障演练是一项需要详细计划并且由包含测试工程师、开发工程师、运维工程师等角色的推进小组完成的工作,某一个角色“单打独斗”是无法完成的

    1.2K31编辑于 2023-08-04
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】 跨 AZ 容灾混沌演练

    进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。 腾讯云基于该背景,推出了混沌演练平台,助力用户进行云上稳定性治理,并结合行业经验,形成了跨 AZ 的容灾演练模版,用户可以基于该模版一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 提高应急响应能力:通过定期进行跨 AZ 容灾和混沌演练,提高企业和组织的应急响应能力,确保在发生问题时能够迅速采取恢复措施。 如何快速进行跨 AZ 容灾混沌演练? 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。 2. 选择对应的云上实例资源或添加其他故障场景,即可开始跨可用区容灾混沌演练

    78810编辑于 2024-03-15
  • 来自专栏得物技术

    实时数仓混沌演练实践

    二、演练范围为了能更细致反应出混沌演练情况,根据演练的内容不同,将实时数仓混沌分为两部分:技术侧和业务侧。 技术侧混沌:基于中间件、数据库、JVM、基础资源、网络、服务等注入常见的异常,根据实际业务中梳理的应用核心场景进行混沌演练,检验系统的脆弱性和应急响应能力,从而提升团队的稳定性保障处理能力。 三、演练计划工欲善其事,必先利其器,在执行混沌演练前,需要准备好前置工作,制定合理的演练SOP、方案、计划,对演练环境、脚本、数据、工具,场景及爆炸半径等进行可能性评估,在确认可行性ok的情况下,约好关联方时间 本篇主要和大家分享基于业务侧的实时数仓混沌演练过程:1.编写演练SOPSOP是一种标准的作业程序,就是将某一事件的操作步骤和要求,进行细化、量化及优化,形成一种标准的操作过程,关于业务侧混沌,尤其是实时数仓数据相关的演练 这些都需要团队进一步去探索、解决,同时在演练的过程中,我们将不断积累、丰富演练case、完善演练库,后续计划通过引入工具(平台)、建立演练协助机制、定期定时演练等手段,使混沌演练更加自动化、规范化、常态化

    61120编辑于 2023-09-20
  • 来自专栏腾讯云智能顾问

    混合云容灾混沌演练

    但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。

    58610编辑于 2024-04-17
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘

    面对研发和迭代各种功能需求,以及处理线上问题的压力,导致在混沌演练方面的时间和精力相对不足。 工具建设: 建设腾讯云混沌演练平台,打造混沌演习全生命周期产品能力,确保团队能轻松实践混沌工程。 虽然市场上有众多开源和商业化的演练工具,但腾讯云始终努力寻求更高效地进行混沌工程实践的方法,基于腾讯云业务自身特点自研了腾讯云混沌演练平台产品,产品提供以下能力: 演习全生命周期支持:将演习过程划分为三个主要阶段 为此,自2021年起,团队把面向腾讯内部几百款产品在演练实施过程中的经验和方法进行产品化,推出混沌工程产品腾讯云混沌演练平台,力求为客户提供故障注入能力和生命周期管理能力等实质性服务。 六、腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患

    1.9K110编辑于 2024-03-13
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!

    近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯云混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 其中,腾讯云混沌演练平台凭借在腾讯云自研产品稳定运营领域工作中积累的实战经验和丰富成果,斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 由此,混沌练平台应运而生。 组织上,成立混沌蓝军,依托腾讯云混沌演练平台,以第三方视角对所有云产品进行非通知的月度大规模实战演习,驱动各个产品达成容灾标准,最终促进达成0故障目标。 以腾讯云机房断电等重大故障演练实践为例,腾讯云混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性: 1)云产品服务稳定性:故障注入以后 腾讯云混沌演练平台将持续完善自动化、可视化的混沌实验部署工具,探索致力于打造一个更完善的稳定性运营平台,满足企业在云迁移、云原生过程中的稳定性保障需求。

    1.3K50编辑于 2024-03-12
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】Redis故障演练-主从切换

    为何需要进行Redis的混沌演练? 当Redis进行主备切换之后,往往会有以下几个影响: 数据一致性问题:在主从切换的瞬间,可能会出现数据不一致的情况,如主节点的部分数据未同步到从节点。 此时进行Redis的主从切换混沌演练便是一个科学的方法。 腾讯云混沌工程实践 Redis 集群是业务存储热数据的重要组件,为保证业务的可用性,依靠集群内节点之间的 Gossip 协议来进行节点状态的判断,默认的心跳超时时间 (cluster-node-timeout 腾讯云混沌演练平台基于以上特性,提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作,您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。 优先跨可用区切换 模拟跨可用区整体故障时,其他可用区节点提主场景 通过混沌工程实现Redis主备切换的故障注入,企业可以更好地了解系统在故障场景下的表现,提前发现潜在问题,确保业务的稳定运行。

    1.4K10编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】CPU 高负载故障演练

    为何需要进行 CPU 高负载故障演练? 服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。 腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理 使用腾讯云混沌演练平台实施CPU高负载。 故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent,并安装至云CVM服务器上,然后使用tat通道下发命令,启动一个名为chaos_burncpu 的进程,空跑for循环来消耗CPU时间片 快速开始 可前往腾讯云混沌演练平台,参照CVM 资源利用率高指引文档进行演习。

    1.2K10编辑于 2024-03-15
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo

    为此,富途旗下子品牌moomoo联合腾讯云,以业内先进混沌工程方法论为指导,基于腾讯云混沌演练平台开展了一次真实的故障演练“Game-Day“实践。 数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。 腾讯云混沌演练平台(Chaotic Fault Generator)是腾讯云针推出的一款针对腾讯云上资源进行混沌工程实践的Saas产品,平台提供覆盖一站式故障演习服务: ● 演练前,平台提供演练计划功能 附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持

    1.6K152编辑于 2024-03-13
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践

    2.2 制定演练计划 2.3 演练场景方案 本次混沌演练主要针对乐元素《开心消消乐》游戏业务,涵盖了所有运营渠道的各种业务场景。 演练实施 本次演练主要基于“腾讯云混沌演练平台(Chaotic Fault Generator)“进行。 3.3 实验效果观测 在混沌演练过程中,运维团队需要同步观察多类监控告警情况,以此判断演练效果。 借助自动化演练平台,提高演练效率 如果没有一个自动化的混沌演练平台,业务运维团队需要自主完成混沌实验设计,包括编写脚本、开发和测试注入工具,才能构建起一个复杂场景的故障模拟能力。 ,极大提高了客户运维团队落地混沌演练的效率,从而可进一步提高日常演练频次,逐步增强业务系统的稳定性。

    1K31编辑于 2024-03-12
  • 来自专栏腾讯云智能顾问

    【开箱吧腾讯云】云顾问产品发布-混沌演练

    为您开箱体验「腾讯云顾问」的混沌演练功能:· 可视化云架构故障演练,故障注入更直观、更安全· 丰富的100+故障场景和行业模板库,灵活编排,快速复用· 提供行业监管标准级的演练报告,复盘总结,治理价值看得见

    45600编辑于 2025-04-30
  • 来自专栏k8s技术圈

    混沌故障演练如何尽可能保障生产环境不被破坏

    由于演练对象和演练配置的差异,在生产环境进行试验可能会对生产环境造成不确定的影响,但混沌工程师的责任和义务是确保这些后续影响最小化且被考虑的范围。 1.5、混沌演练之前,一定要好可行性评估,评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等,然后决策演练场景,进行实践操作。 2.4、实施监控系统稳态指标变化,如果发现稳态指标超过指定的阈值,影响较大,系统支持立刻终止混沌实验,以确保演练的安全。 2.6、结合使用监控报警、日志排查等平台工具实时收集服务器在混沌演练运行期间的性能状态,错误信息,如系统层面的 CPU、内存等使用情况,观察方法的响应时间、成功率等指标,一方面验证在混沌场景执行期间系统状态是否达到预期的效果 当混沌工程的系列工具和机制已经相对完善,但是人员在应急情况下的处理能力还是不足的时候就可以做攻防演练了。

    1.1K41编辑于 2023-08-25
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】精细演练,稳定云端——腾讯云助阵金蝶云,守护小微业务稳定高可用

    改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。 安全保障要求高:由于混沌实验涉及金蝶精斗云的关键业务和客户数据,为了保障现网客户不受影响,演练中要精准控制混沌爆炸半径,做好应急预案及时止损,这就对演练平台提出了更高的安全保障要求。 四、演练实施 创建演练任务 根据演练方案,在云顾问·混沌演练平台上提前创建演练任务,主要完成故障原子动作的编排,演练对象实例范围选取、添加稳态监控指标等。 目前,金蝶团队已将混沌演练纳入稳定性常态化建设中,平均每年进行两次大规模的容灾演练。 腾讯云混沌演练平台,凭借灵活、安全、易用的特性,协助金蝶精斗云优化运维管理和深化稳定性建设体系,极大地提高了业务团队实践混沌实验的效率,帮助客户达成了业务稳定性提升的目标。

    72310编辑于 2024-03-12
  • 云顾问混沌演练平台:如何精准实现容器负载类故障注入?

    腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 云顾问混沌演练平台如何精准实现负载类故障注入?腾讯云云顾问混沌演练平台利用创新的技术,通过创建稳定的辅助执行环境(称为chaos-helper-pod),实现容器故障的精准注入。 具体步骤如下:动态部署混沌辅助执行Pod: 混沌工程控制平台接收到用户的故障注入请求后,会在目标业务容器所在的节点动态启动一个chaos-helper-pod,这个Pod内置了各种故障注入工具,如CPU 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器

    41121编辑于 2025-05-20
  • 来自专栏腾讯云智能顾问

    腾讯云Status Page(健康看板)容灾设计与混沌演练实践——上篇

    为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。 Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)容灾设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇

    944101编辑于 2024-03-11
  • 来自专栏腾讯云智能顾问

    腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇

    上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——上篇 我们讨论架构设计和部署,接下来的内容是关于相应故障演练验证的实践 故障注入主要通过腾讯云混沌演练平台实现,腾讯云有对外服务的版本 ,可以前往混沌演练平台进行了解。 : 逻辑层故障演练 主源逻辑层地域所有POD异常 通过腾讯云混沌演练平台pod Failed注入 主源逻辑层单可用区所有POD异常 通过腾讯云混沌演练平台pod Failed注入 逻辑层地域所有POD异常和单可用区所有 平台自动处理示意图 数据层故障演练 通过腾讯云混沌演练平台进行注入: 代码层面实现DB异常返回约定的50x异常码,ECDN节点接收到异常码后做备源重试: 演练总结 上述针对性的对接入层,逻辑层,数据层故障演练验证的结果都达到了预期 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇

    1.2K81编辑于 2024-03-11
  • 来自专栏超级架构师

    混沌工程】混沌工程原理

    我们称之为混沌工程。 实践中的混乱 为了专门解决大规模分布式系统的不确定性,混沌工程可以被认为是促进实验以发现系统弱点。 改变现实世界的事件 混沌变量反映了现实世界的事件。通过潜在影响或估计频率对事件进行优先级排序。 混沌工程将自动化构建到系统中,以驱动编排和分析。 最小化爆炸半径 在生产中进行试验有可能导致不必要的客户痛苦。 虽然必须考虑一些短期的负面影响,但混沌工程师有责任和义务确保将实验的后果最小化并加以控制。 混沌工程是一种强大的实践,它已经改变了世界上一些最大规模运营中软件的设计和工程方式。 混沌原则为大规模快速创新提供信心,并为客户提供他们应得的高质量体验。 谢谢大家关注,转发,点赞和点在看。

    1.1K20编辑于 2022-09-28
领券