2.1 演练流程介绍 目前借助京东云RPA自动化服务平台进行混沌攻防演练,测试人员为红方(攻击方),研发人员为蓝方(防守方),红方随机挑选一个时间段,针对服务系统注入故障(比如:CPU使用率达到 红方: 创建演练计划:通过访问RPA自动化服务平台,进入工具市场——演练类,选择不同的故障方案,点击“立即执行”; 演练配置:点击执行后,进入配置页面,选择执行环境,选取要演练的应用,并随机选取要演练的实例 :演练中发现问题要及时恢复,演练后对模拟故障的实例机器进行重启恢复,确保机器正常运行,各项性能指标恢复; 图2 混沌演练平台介绍 2.2 初次演练实践 2.2.1 准备阶段 混沌演练准备阶段是设计演练策略 图4 混沌演练任务信息和监控信息 2.2.3 恢复阶段 故障发现及排查定位:演练进行中,蓝方事先不知道演练哪些故障场景(目前是通过预发演练,研发侧能明确受影响的机器),蓝方通过收到报警, 3.1 典型演练场景 借助于平台进行混沌演练,可以降低演练的学习成本,提高演练的效率,目前平台对于常用的演练场景已经支持,大家可以在平台进入工具市场选择相应的演练场景。
近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯云混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 由此,混沌练平台应运而生。 组织上,成立混沌蓝军,依托腾讯云混沌演练平台,以第三方视角对所有云产品进行非通知的月度大规模实战演习,驱动各个产品达成容灾标准,最终促进达成0故障目标。 以腾讯云机房断电等重大故障演练实践为例,腾讯云混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性: 1)云产品服务稳定性:故障注入以后 混沌工程平台能力评估 除了斩获三项优秀案例外,在中国信通院“2022下半年系统稳定性保障领域评估-混沌工程平台能力评估”中,腾讯云混沌演练平台(CFG)还凭借灵活、便捷、完善的故障演习功能和全面的安全防护保障能力 腾讯云混沌演练平台将持续完善自动化、可视化的混沌实验部署工具,探索致力于打造一个更完善的稳定性运营平台,满足企业在云迁移、云原生过程中的稳定性保障需求。
2024年4月,由阅文游戏制作并发行的《斗破苍穹:三年之约》在国内开服发行,项目规模较大,玩家范围较广。 为此次演练腾讯云混沌团队提供基于混沌工程原理及腾讯云最佳实践的故障演练平台,内含丰富的故障动作库和典型的行业经验模板,提供高效的可视化演练和可靠的安全防护策略,并在结束演练后提供完备的演练报告。 创建演练任务 根据预先制定的演练方案,在腾讯云混沌演练平台上提前创建好演练任务,包括选取经验模板,编排动作组,选择演练实例对象,配置动作执行方式和监控指标执行故障注入云顾问·混沌演练平台提供可视化视图, 用户在演练过程中可以实时查看故障动作执行状态(成功/失败/执行中)和注入效果:观测演练结果通过提前配置的业务侧告警,云监控告警以及混沌演练平台执行记录可以及时观察到演练过程及结果是否符合预期以及故障注入后系统稳态指标的表现 从观测结果可以看出混沌演练平台故障注入成功,目标实例均呈现出应有的表现,并能按照预期进行切换,完全模拟出了预期的故障场景 四、 混沌演练的收益通过游戏服+平台服的多次混沌演练,该款游戏高可用架构改造后的系统稳定性和可靠性得到了有效验证
2023年4月,欢乐互娱重磅新游大作《RO仙境传说》计划在东南亚发行,该项目开服规模大、影响用户范围广,做好游戏上线前的容灾准备以保障上线后的稳定性至关重要。 三、 混沌故障演练过程 在新游上线的背景下,欢乐互娱携手腾讯云混沌演练平台,通过梳理游戏行业痛点问题,结合业务背景,重点提炼出了服务器、网络、数据库等场景下的故障容灾演练,以充分评估新游戏产品的稳定性表现 在腾讯云混沌演练平台(CFG)上,业务团队可以轻松完成实例选取、演练场景动作编排、可视化故障注入和演练报告等全流程演练。 五、 腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)是一款结合了腾讯内部实践的针对腾讯云上资源进行混沌工程实践的SaaS产品。 附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持
演练实施 本次演练主要基于“腾讯云混沌演练平台(Chaotic Fault Generator)“进行。 目前平台提供100余种故障原子动作,支持用户在一次演练任务中对故障原子动作进行灵活的串行、并行组合编排,满足用户多样化的演练需求。 3.2 执行故障注入 通过混沌演练平台,执行故障注入操作。 4. 客户收益 乐元素在本次同城双活演练中,成功应对了一系列关键业务的容灾挑战,并对系统的整体可用性和可靠性进行了全面验证,达到演练目标。在此次演练中,客户主要取得了以下两方面收益: 1. 借助自动化演练平台,提高演练效率 如果没有一个自动化的混沌演练平台,业务运维团队需要自主完成混沌实验设计,包括编写脚本、开发和测试注入工具,才能构建起一个复杂场景的故障模拟能力。 而腾讯云混沌演练平台就是一个面向用户提供全生命周期故障演练服务的自动化平台,它提供各个行业丰富的演练模板和100+故障原子动作,支持用户方便快捷地进行故障演练编排、自动化执行故障注入、观测监控指标、导出演练报告等
如果某团队提供的服务满足4个9,那么一年发生故障的时间可以通过以下方式计算。 用于混沌工程的开源工具有很多,站在团队的角度,要选取平台化工具,作为故障演练的统一入口,需要提供方便、易用的交互方式,以自动完成故障注入。 提供多样化、可视化的故障注入自动化平台,作为各种演练和故障测试及验证的统一入口。 故障注入平台能够帮助业务人员发现更多影响业务稳定性的未知问题,验证警告的有效性和完整性,以及业务的故障预案是否有效。 这里推荐使用阿里巴巴的开源平台ChaosBlade。 4.流程准备 除上述相关准备以外,在开始故障演练前,还要检查流程准备工作是否已经做好。例如,故障决策链是否清晰明确?各种故障是否都有明确的排查和解决方案?每种方案是否都切实可行?
背景 随着云计算技术的快速发展,越来越多的企业和组织将其业务迁移到云平台,以实现更高效、灵活和可扩展的资源管理。 进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。 腾讯云基于该背景,推出了混沌演练平台,助力用户进行云上稳定性治理,并结合行业经验,形成了跨 AZ 的容灾演练模版,用户可以基于该模版一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。 2. 选择对应的云上实例资源或添加其他故障场景,即可开始跨可用区容灾混沌演练。
从投放管理平台的链路全景图来看,实时数仓是不可或缺的一环,可以快速处理海量数据,并迅速分析出有效信息,同时支持投放管理平台的手动控盘。 二、演练范围为了能更细致反应出混沌演练情况,根据演练的内容不同,将实时数仓混沌分为两部分:技术侧和业务侧。 );INSERT INTO kafka_sinkSELECTcast(MD5(message) as VARBINARY),cast(message as VARBINARY)FROM source;4. 蓝军:蓝军已完成数据准备,请红军在演练前确保环境OK且已完成规则配置,另外务必将演练时间计划及时同步通知到下游关联方;蓝军:已完成注入。6.告警触发通知红军在演练前,可通过监控平台提前配置好防御规则。 这些都需要团队进一步去探索、解决,同时在演练的过程中,我们将不断积累、丰富演练case、完善演练库,后续计划通过引入工具(平台)、建立演练协助机制、定期定时演练等手段,使混沌演练更加自动化、规范化、常态化
但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。
工具建设: 建设腾讯云混沌演练平台,打造混沌演习全生命周期产品能力,确保团队能轻松实践混沌工程。 虽然市场上有众多开源和商业化的演练工具,但腾讯云始终努力寻求更高效地进行混沌工程实践的方法,基于腾讯云业务自身特点自研了腾讯云混沌演练平台产品,产品提供以下能力: 演习全生命周期支持:将演习过程划分为三个主要阶段 三、实践效果:混沌演练常态化、规模化,业务稳定性稳步提升,混沌平台能力达到先进级 过去几年,腾讯云在内部持续推动混沌工程实践展开,云上故障数量和故障影响时长都显著下降。 为此,自2021年起,团队把面向腾讯内部几百款产品在演练实施过程中的经验和方法进行产品化,推出混沌工程产品腾讯云混沌演练平台,力求为客户提供故障注入能力和生命周期管理能力等实质性服务。 六、腾讯云混沌演练平台 腾讯云混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患
为何需要进行Redis的混沌演练? 当Redis进行主备切换之后,往往会有以下几个影响: 数据一致性问题:在主从切换的瞬间,可能会出现数据不一致的情况,如主节点的部分数据未同步到从节点。 此时进行Redis的主从切换混沌演练便是一个科学的方法。 腾讯云混沌工程实践 Redis 集群是业务存储热数据的重要组件,为保证业务的可用性,依靠集群内节点之间的 Gossip 协议来进行节点状态的判断,默认的心跳超时时间 (cluster-node-timeout 腾讯云混沌演练平台基于以上特性,提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作,您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。 优先跨可用区切换 模拟跨可用区整体故障时,其他可用区节点提主场景 通过混沌工程实现Redis主备切换的故障注入,企业可以更好地了解系统在故障场景下的表现,提前发现潜在问题,确保业务的稳定运行。
为何需要进行 CPU 高负载故障演练? 服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。 腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理 使用腾讯云混沌演练平台实施CPU高负载。 故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent,并安装至云CVM服务器上,然后使用tat通道下发命令,启动一个名为chaos_burncpu 的进程,空跑for循环来消耗CPU时间片 快速开始 可前往腾讯云混沌演练平台,参照CVM 资源利用率高指引文档进行演习。
腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 云顾问混沌演练平台如何精准实现负载类故障注入?腾讯云云顾问混沌演练平台利用创新的技术,通过创建稳定的辅助执行环境(称为chaos-helper-pod),实现容器故障的精准注入。 具体步骤如下:动态部署混沌辅助执行Pod: 混沌工程控制平台接收到用户的故障注入请求后,会在目标业务容器所在的节点动态启动一个chaos-helper-pod,这个Pod内置了各种故障注入工具,如CPU 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器
环境准备:首先在测试环境进行预演练,然后在生产环境维护期间进行正式演练; 4. 逻辑层虚拟机、容器集群容灾能力 4. 通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。 腾讯云混沌演练平台(Chaotic Fault Generator)是腾讯云针推出的一款针对腾讯云上资源进行混沌工程实践的Saas产品,平台提供覆盖一站式故障演习服务: ● 演练前,平台提供演练计划功能 附: 公有云产品体验: 混沌演练平台-腾讯云产品控制台 故障演练操作指南: 腾讯云文档中心-混沌演练平台-故障动作库 案例介绍文档: 腾讯云文档中心-混沌体验营 高可用服务: 高可用服务 - 腾讯云客户支持
Kubernetes 的混沌工程平台。 Chaos Mesh 是云原生计算基金会 (CNCF) 托管的项目。它是一个云原生混沌工程平台,可在 Kubernetes 环境中编排混沌。 How SpiceDB uses Chaos Mesh to verify protection ByteDance 字节跳动自主研发的混沌工程平台主要用于公司自有技术体系。 由于涉及到云原生部署服务,字节跳动集成了Chaos Mesh作为底层故障注入引擎,是对字节跳动混沌工程平台的重要补充。 To be added. 此外,他们拥有云平台的用户也会访问 Chaos Mesh 来测试用户服务的稳定性。 subscription verification; exactly-once consumer business verification for message queues;simulation of weak 4G
为您开箱体验「腾讯云顾问」的混沌演练功能:· 可视化云架构故障演练,故障注入更直观、更安全· 丰富的100+故障场景和行业模板库,灵活编排,快速复用· 提供行业监管标准级的演练报告,复盘总结,治理价值看得见
混沌测试平台 Chaos Mesh Chaos Mesh 是PingCap团队研发的一款用于测试kubernetes环境的工具。通过人为地在集群中注入故障来检测集群对故障的处理以及恢复能力。 混沌测试与针对某个应用测试的区别为:前者更倾向于在现有大规模集群中进行测试,影响因素可能来自集群中的方方面面;而后者更专注于对应用本身功能的测试。 GitHub上目前有两款star数高的混沌项目,litmus和chaos-mesh,这两款的功能和场景都基本类似,前者目前提供的混沌注入功能比较多,但后者提供了简单的UI界面。 目前支持的混沌测试如下: # kubectl get crd NAME CREATED AT iochaos.chaos-mesh.org cron: "@every 5m" 总体来说,混沌测试更像是集成验证的一部分,通过在现有运行环境中注入故障来发现系统或应用的兼容性问题,故障恢复能力问题等。
在学习和研究web漏洞的过程中对每一种漏洞都进行了测试,将其整理到了一块儿,于是有了一个简单的Web漏洞演练平台–ZVulDrill,各位安全测试人员可以亲身实践如何利用这个漏洞,同时也可以学习到漏洞的相关知识 平台中有10个挑战,包含的漏洞有: ·SQL注入 ·储存型和反射型XSS ·CSRF ·文件包含 ·后台弱口令 ·文件上传 ·目录遍历 ·权限跨越 以及一些推荐的拓展练习。
一篇文章让我们了解Apollofish-演练平台。 font-size: 14px; } input:focus { outline: none; border-color: #4a90e2 0 5px rgba(74,144,226,0.3); } input[type="button"] { background-color: #4a90e2
0x00 前言 得到通知需要对某单位内部员工进行一次钓鱼邮件演练,因为之前接触的不多,钓鱼只是娱乐性的自己钓自己,记录下思路和踩坑。