搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏windealli
故障演练 | 微服务架构下如何做好故障演练
什么是故障演练故障演练是指模拟生产环境中可能出现的故障，测试系统或应用在面对故障时的反应和响应能力。故障演练可以模拟各种故障情况（网络故障、数据库故障、服务过载，CPU或内存异常等）。为什么需要故障演练故障演练是微服务架构下非常重要的实践，用以测试系统或应用在面对故障或缺陷时的反应表现及其恢复能力。故障演练可以促进团队沟通、理解和协作，完善生产环境的排障流程。故障演练的目标故障演练的目标是尽可能模拟真实世界中的故障情况，战略性推动全面和深入的风险管理与测试。故障演练的基本流程故障演练大致可以分为：计划、演练、评价、改进四个阶段，其基本流程如下图所示。如何进行故障演练故障演练通常可以按照面的流程和步骤来进行：演练前 | 确认演练对象与目标确定演练对象，例如可以是整个系统，某个部分，或者某个服务等等; 确定演练目标，包括期望模拟出哪些故障场景
1.9K30编辑于 2023-10-13
来自专栏腾讯云中间件专家服务
容灾演练-故障切换
容灾设计需要进行故障切换的场景容灾设计过程当中需要考虑的故障切换的场景有很多，数据中心内部的高可用切换不在本次讨论范围之内，我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景，从网络层到存储层都会涉及到，其主要涉及如下几个方面： ① 网络层故障切换（路由、 DNS、交换机、负载均衡）。 ② 应用服务计算层故障切换（应用 APP ）。 ③ 数据库服务实例层故障切换（数据库 Instance ）。 ④ 数据副本层故障切换（数据副本）。 2. 接下如上图，来看故障场景下的切换策略。 1、如果DNS层发生单边功能不可用，容灾切换机制是什么？这个故障可能是由单边入口出口路由故障、单边交换机故障、单边DNS服务设备层导致，总而言之最终的结果就是客户端到DNS地址不可达。
3.6K31发布于 2021-09-16
来自专栏SRE运维进阶之路
Etcd 高可用故障演练
目的本次演练旨在测试 Kubernetes 的 etcd 高可用性，检验是否能够在其中一个 etcd 节点发生故障的情况下，其他 etcd 节点能够接管其工作，确保集群仍能正常运行。集群架构演练场景在一个三节点的 Kubernetes 集群中，我们将模拟其中一个 etcd 节点的故障，观察剩余的 etcd 节点是否能够正常运行。 127.0.0.1 的 etcd 服务，所以当 M3 节点 etcd 服务停止后， M3 节点的 apiserver 也不能正常提供服务所以 haproxy 和 nginx 都必要配置正确的健康检查策略，可以自动剔除故障节点演练结果在停止一个演练结果证明 Kubernetes 的 etcd 子系统具有较高的可用性，可以有效地应对节点故障的情况。总结通过本次演练，我们验证了 Kubernetes 的 etcd 子系统的高可用性，并了解了在一个节点发生故障的情况下，其他节点是如何接管其工作的。
72800编辑于 2023-06-19
来自专栏FunTester
混沌工程和故障演练
而故障演练是混沌工程的具体实践，通过向目标系统注入真实可能发生的故障来考量系统的稳定性。故障演练的实施要点混沌工程为稳定性验证实验提供了可实践的指导。 5．开始演练开始演练前，通知所有干系人，包括相关业务的开发工程师、业务工程师及基础设施工程师。通知内容包含参与故障演练的服务、故障演练的开始时间、故障演练的结束时间、故障演练对应服务所在的集群环境。在故障演练过程中，如果超出控制或者原定计划的故障影响范围，要立即终止故障演练，快速恢复系统，同时清理全部故障演练对系统的影响和痕迹。因为故障演练是在真实环境中进行的，除被测业务之外，很多真实用户也在使用该系统，不能为了完成故障演练而引起真实故障。 6．结束总结故障演练重点中的重点是恢复故障演练环节，故障演练都是在真实环境中完成的，因此一定要记住恢复全部环境，关闭故障注入工具，恢复降级处理的服务，以保证服务可以恢复到故障演练之前的正常状态。
1.3K31编辑于 2023-08-04
来自专栏程序员升级之路
故障演练利器之ChaosBlade介绍
一、什么是ChaosBlade ChaosBlade是阿里巴巴在其自身故障测试和演练实践基础上，结合自身业务场景而开发的故障注入工具。该工具目前已经开源，项目地址： https://github.com/chaosblade-io/chaosblade 二、为什么需要故障演练 ChaosBlade是一款故障注入工具，是整个故障演练的一个小环节，那为什么要做故障演练呢？在我看来，主要是为了验证在故障场景程序的可靠性和可用性，因为大部分人写代码都有惯性，只喜欢写正向流程，对于一些异常处理往往是非常简单和粗暴的，所以很有可能出现在系统发生故障时可能出现各种问题：如数据丢失故障演练主要是通过模拟一个个故障场景来验证程序的可靠性和可用性，这样也反过来提升系统架构，为后续开发、设计提供一些指导。
2.8K50发布于 2020-09-11
来自专栏码匠的流水账
redis的sentinel模式故障演练
redis的sentinel模式相对cluster来说比较简单，缺点是需要浪费一些资源来做sentinel节点，对于中小数据量的业务来说，相对比较划算。
1K10发布于 2018-09-17
来自专栏腾讯云混沌工程团队
【云顾问-混沌】CPU 高负载故障演练
为何需要进行 CPU 高负载故障演练？服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此，稳定和高性能的服务器对于业务的顺利运行至关重要。为了更好地了解自己的服务性能，增强系统的稳定性，以及提高应对故障的能力，需要一种有效的方式来模拟 CPU 高负载故障，定期对自己的服务进行演习，以便提前发现问题，做好应急预案。腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理使用腾讯云混沌演练平台实施CPU高负载。故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent，并安装至云CVM服务器上，然后使用tat通道下发命令，启动一个名为chaos_burncpu 的进程，空跑for循环来消耗CPU时间片快速开始可前往腾讯云混沌演练平台，参照CVM 资源利用率高指引文档进行演习。
1.5K10编辑于 2024-03-15
来自专栏腾讯云混沌工程团队
【云顾问-混沌】Redis故障演练-主从切换
然而，在Redis中的使用中，会面对一些潜在的故障风险，其中主节点故障，发生主从切换最为常见。为何需要进行Redis的混沌演练? 此时进行Redis的主从切换混沌演练便是一个科学的方法。如果此故障节点为主节点时，腾讯云Redis将采取故障切换机制，将重新从备节点选举新的主节点。腾讯云混沌演练平台基于以上特性，提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作，您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。优先跨可用区切换模拟跨可用区整体故障时，其他可用区节点提主场景通过混沌工程实现Redis主备切换的故障注入，企业可以更好地了解系统在故障场景下的表现，提前发现潜在问题，确保业务的稳定运行。
1.7K10编辑于 2024-03-15
来自专栏腾讯云原生团队
基于 Playbook 实现 TKE 控制面故障演练
但真实的业务故障演练，从来不是单一原子化操作，更多的是模拟业务实际使用场景、再结合业务领域关键链路等进行统一演练，这意味着：原子化能力是基础：必须具备将故障抽象为可复用的标准化操作（如“关机”“负载注入 ”）的能力；场景化编排是核心：演练需融合专家经验，覆盖从单点故障到复杂故障链的全生命周期（预检→业务负载模拟->故障注入→指标采集→恢复→后检）。展示了故障演练的整体流程，通过定义清晰的流程模板可灵活配置不同故障场景。执行演练：演练流程以 Argo Workflow 进行编排，包括故障注入、维持故障注入、故障恢复等主要步骤。结语本文阐述了基于 Playbook 交付的 K8s 控制面故障演练能力，凭借场景化交付、可编排、自助式执行等优势填补了容器托管服务下对控制面故障演练能力的缺失。
42510编辑于 2025-06-12
来自专栏腾讯专有云
MariaDB在Oscar故障演练平台的测试实践
背景为了进一步增强 TCS MariaDB 高可用能力，验证 MariaDB 在网络分区、删除 Pod 等一系列的故障场景中的表现，需要通过演练工具去模拟这些故障场景。 Oscar 是基于 TCS/TCE 的混沌工程演练平台，具备丰富的故障场景，同时兼备操作简单效率高等特点。因此，MariaDB 通过接入 Oscar 演练平台测试实践，模拟更多更为复杂的故障场景，不仅可以提升演练效率，而且还加深研发对 MariaDB 在各种故障场景下表现的认知，从而优化并提升 MariaDB 2 TCS Oscar故障演练平台介绍 Oscar 是专有云第一款基于混沌工程理论实现的故障演练商业化产品，经过两次版本迭代，在产品能力上快速追平了竞品，并在目标域控制策略、演练报告、一键演练等能力上赶超竞品，开启故障演练： MariaDB 在 Oscar 平台演练实践 1 多主演练 case 多主架构上述 case 演练结果均符合预期。
95520编辑于 2022-12-10
来自专栏大数据那些事
keepalived（4）——演练故障出现时keepalived的状态
keepalived的主要作用体现在处理单点故障，像前面我们设置的两台主机，就可以进行故障演练，现在的状态是master主机开启着keepalived： ? ?
73620发布于 2020-11-11
故障演练：人为打满 CPU，Grafana 会发生什么？
实验目标通过本次演练，将验证以下内容：节点 CPU 被打满时，Grafana 关键指标的具体变化如何正确解读分核心 CPU 使用率与整体 CPU 使用率 Load Average 的含义及告警阈值判断 Pod 调度与运行状态是否受影响快速定位故障的方法实验环境 Kubernetes 集群：HA 模式，v1.34.0 Master 节点 × 3 Worker 节点 × 3 监控栈：Prometheus 故障发生前的状态在施加压力前，Grafana 显示： CPU 使用率（整体）：< 1% Load Average：接近 0 Pod 状态：全部 Running 一切正常。故障发生后的指标变化我们持续观察 Grafana 的几个关键面板。 ① CPU Usage（分核心视图）最直观的变化是每个逻辑核心的 CPU 使用率从接近 0% 上升至 25%（见下图）。会发送恢复通知本次演练结论通过这次真实压力测试，得到以下结论：现象正确理解 Grafana 分核心视图显示 25% 可能为“整体 CPU 平均”的渲染方式，实际单核已是 100% Load Average
11310编辑于 2026-06-09
企业级YashanDB故障恢复演练及应急预案
无论是由于自然灾害、硬件故障还是人为失误，数据库系统的故障均可能导致业务中断和数据丢失。故障恢复是确保数据库高可用性和数据安全性的关键过程。 YashanDB作为企业级数据库解决方案，具备强大的故障恢复能力，能够支持高可用性部署架构。本文旨在探讨YashanDB的故障恢复演练及应急预案，帮助企业提前规避风险、应对故障并保障业务持续运行。具体操作建议定期进行故障恢复演练，包括主备切换和数据恢复测试，确保系统的应急响应能力。实施完整的备份策略，确保全库备份与增量备份定期执行并验证完整性。制定详细的故障处理手册，将故障恢复的步骤、注意事项进行记录与传播，确保所有成员知晓应急预案。结论随着企业数据规模的增加，优化故障恢复策略将成为维护业务连续性的核心竞争力。 YashanDB通过主备复制、先进的日志管理等功能，提供了多种故障恢复的可行性和灵活性。企业应不断更新和完善故障恢复演练及应急预案，通过主动出击，才能在面对突发故障时，更加从容应对，保障系统稳定运行。
22610编辑于 2025-09-12
Kubernetes 存储高可用实战：Longhorn 故障演练与恢复
Pod 是否能够被重新调度到其他节点数据卷能否重新挂载数据库是否可以正常启动数据会不会丢失正好借这个机会，做一次完整的故障演练。二、故障演练目标本次实验验证以下能力：节点宕机 ↓ Pod 自动迁移 ↓ 存储重新挂载 ↓ 数据库恢复 ↓ 副本自动重建三、初始状态首先查看 MySQL Pod 十三、故障恢复时间线整个故障恢复过程可以总结为：节点宕机 ↓ Pod 消失 ↓ StatefulSet 创建新 Pod ↓ Pod 调度到新节点 ↓ MySQL 启动 ↓ Replica Rebuild ↓ Volume Healthy 十四、总结 Pod + Volume 调度流程图如下：通过这次故障演练 ≠ 服务故障当然，在实际运维中仍然需要理解系统的故障机制。
16210编辑于 2026-05-06
来自专栏k8s技术圈
混沌故障演练如何尽可能保障生产环境不被破坏
频繁的故障演练使开发团队能从问题中学习经验，从而对服务集群的稳定性有更高的重视。因此，可以考虑以下方面尽可能保障生产环境的演练不被破坏：一、管理方面 1.1、演练人员要做到熟练使用，了解清楚具体某个实验的配置/参数的作用，做到有的放矢； 1.2、生产环境故障注入前，先在测试或者沙盒环境验证和测试 , 评估该故障对上下游的影响范围，做到心中有数； 1.3、选择合适的时间段进行演练：故障注入时间应选择空闲时段； 1.4、针对可能破坏的演练，提前做好备份计划和容灾预案，以防不时之需。（降级失败数），表示 API 对 Gallery 的故障降级 fallback 生效 • 在实验组注入故障后，监控指标能快速恢复至预期，可以认为系统是具备故障容错恢复能力的，否则就存在弱点。 2021.9-2021.11 应用层演练：这个阶段实践的主要对象是应用的各类进程问题。当大规模的故障已经得到了基本保障，但是应用状态频出，此时就可以考虑落地应用演练了。
1.2K41编辑于 2023-08-25
Linux服务器崩溃急救指南：实战演练常见故障排查
二、故障初步诊断：先判断"死没死透"服务器出现异常时，第一步要判断故障级别。尝试SSH远程登录：若能登录说明系统仍在运行，可能是个别服务挂死。常见场景三：硬件故障排查硬件故障排查则需结合日志和工具：硬盘状态检查：通过带外管理查看硬盘状态，若RAID卡报警，用对应工具检查阵列健康度，比如MegaCLI查看LSI RAID卡信息：MegaCli64 内存故障检测：若怀疑内存故障，可在服务器启动时进入Memtest86+进行内存检测，一般跑3轮无错误可排除内存问题。故障复盘：恢复正常后，必须进行故障复盘：查看/var/log/messages系统日志、/var/log/dmesg内核日志，定位故障根源。若是硬件问题，评估是否需要批量更换同批次配件。记住，运维的价值不仅在于解决问题，更在于通过每一次故障积累经验，构建更稳定的服务器运行环境。
77210编辑于 2025-11-03
来自专栏TakinTalks稳定性社区
如何在金融企业推进故障演练？中国人寿分阶段实践总结
今天我将主要围绕中国人寿故障演练的项目背景、目标思路、技术方案等，分享其在预知故障和降低不确定性风险方面的实践成效。一、故障演练想要达成哪些目标？ 1.1 故障演练目标故障演练的目标主要分为两块，业务目标和技术目标。基于开源的ChaosBlade，进一步做了定制化开发，包括自定义故障的开发、监控能力整合等，形成了现有的混沌工程平台。三、如何分阶段落地故障演练？整个故障演练工作可以分成三个阶段。 3.1 故障演练-测试环境 3.3.1 整体工作成效从2022年7月开始至今，总计完成13个系统测试环境的故障演练，累计进行30轮演练，发现143个风险点并采取预防措施，整改问题超过50个。接下来，基于开发环境对挑选出来的故障做预演练，其目的就是通过合适的方式生成故障——有些故障比较简单，通过故障工具可以直接生成，但需要找到合适的位置并做深度剖析；还有一些故障需要定制开发，并做演练迭代。
65910编辑于 2023-12-04
云顾问混沌演练平台：如何精准实现容器负载类故障注入？
腾讯云云顾问混沌演练平台应运而生，通过精准的负载类故障注入，帮助企业提前发现并解决问题，提升系统稳定性。1. 什么是负载类故障注入？负载类故障注入主要模拟系统在极端资源消耗情况下的表现，例如CPU满载、内存耗尽、IO压力过大等情况。这类故障注入帮助企业验证容器在资源紧张情况下的响应能力和弹性扩展机制。2. 云顾问混沌演练平台如何精准实现负载类故障注入？腾讯云云顾问混沌演练平台利用创新的技术，通过创建稳定的辅助执行环境（称为chaos-helper-pod），实现容器故障的精准注入。注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境，因此对操作系统本身无特殊要求。小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境，实现了容器负载类故障注入的精确控制，确保故障注入的效果真实、准确，同时保障了混沌平台自身运行的稳定性，成为企业提升容器应用弹性和可靠性的重要利器
48521编辑于 2025-05-20
故障演练 EP.1：一台 Master 宕机，Kubernetes 居然毫无感知
这一篇，真正开始故障演练。这张图是故障前的健康基线，后面 Master 挂掉后，能直接对比出 Ready → NotReady的变化。所以这一次，我直接采用了暴力、接近真实故障的方式：强制关闭一台 Master 虚拟机。 2.1 故障目标我选择关闭 Master01，IP 为 192.168.114.145。演练不是目的，理解原理才是。下面我从三个层面拆解“为什么没事”。六、这次演练让我彻底想明白了一件事以前我也觉得“Kubernetes HA 就是多几台 Master”，但真正手动打挂一台节点，再亲眼看着 kubectl 毫发无伤地继续工作，这种认知才从“知道”变成了
15710编辑于 2026-05-19
来自专栏微观技术
【故障演练】 Redis Cluster集群，当master宕机，主从切换，客户端报错 timed out
一个高并发系统肯定少不了缓存的身影，为了保证缓存服务的高可用，我们通常采用 Redis Cluster 集群模式。
3.1K20编辑于 2022-04-07

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

故障演练 | 微服务架构下如何做好故障演练

容灾演练-故障切换

Etcd 高可用故障演练

混沌工程和故障演练

故障演练利器之ChaosBlade介绍

redis的sentinel模式故障演练

【云顾问-混沌】CPU 高负载故障演练

【云顾问-混沌】Redis故障演练-主从切换

基于 Playbook 实现 TKE 控制面故障演练

MariaDB在Oscar故障演练平台的测试实践

keepalived（4）——演练故障出现时keepalived的状态

故障演练：人为打满 CPU，Grafana 会发生什么？

企业级YashanDB故障恢复演练及应急预案

Kubernetes 存储高可用实战：Longhorn 故障演练与恢复

混沌故障演练如何尽可能保障生产环境不被破坏

Linux服务器崩溃急救指南：实战演练常见故障排查

如何在金融企业推进故障演练？中国人寿分阶段实践总结

云顾问混沌演练平台：如何精准实现容器负载类故障注入？

故障演练 EP.1：一台 Master 宕机，Kubernetes 居然毫无感知

【故障演练】 Redis Cluster集群，当master宕机，主从切换，客户端报错 timed out

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

故障演练 | 微服务架构下如何做好故障演练

容灾演练-故障切换

Etcd 高可用故障演练

混沌工程和故障演练

故障演练利器之ChaosBlade介绍

redis的sentinel模式故障演练

【云顾问-混沌】CPU 高负载故障演练

【云顾问-混沌】Redis故障演练-主从切换

基于 Playbook 实现 TKE 控制面故障演练

MariaDB在Oscar故障演练平台的测试实践

keepalived（4）——演练故障出现时keepalived的状态

故障演练 ：人为打满 CPU，Grafana 会发生什么？

企业级YashanDB故障恢复演练及应急预案

Kubernetes 存储高可用实战：Longhorn 故障演练与恢复

混沌故障演练如何尽可能保障生产环境不被破坏

Linux服务器崩溃急救指南：实战演练常见故障排查

如何在金融企业推进故障演练？中国人寿分阶段实践总结

云顾问混沌演练平台：如何精准实现容器负载类故障注入？

故障演练 EP.1：一台 Master 宕机，Kubernetes 居然毫无感知

【故障演练】 Redis Cluster集群，当master宕机，主从切换，客户端报错 timed out

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

故障演练：人为打满 CPU，Grafana 会发生什么？