首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏windealli

    故障演练 | 微服务架构下如何做好故障演练

    什么是故障演练 故障演练是指模拟生产环境中可能出现的故障,测试系统或应用在面对故障时的反应和响应能力。 故障演练可以模拟各种故障情况(网络故障、数据库故障、服务过载,CPU或内存异常等)。 为什么需要故障演练 故障演练是微服务架构下非常重要的实践,用以测试系统或应用在面对故障或缺陷时的反应表现及其恢复能力。 故障演练可以促进团队沟通、理解和协作,完善生产环境的排障流程。 故障演练的目标 故障演练的目标是尽可能模拟真实世界中的故障情况,战略性推动全面和深入的风险管理与测试。 故障演练的基本流程 故障演练大致可以分为:计划、演练、评价、改进四个阶段,其基本流程如下图所示。 如何进行故障演练 故障演练通常可以按照面的流程和步骤来进行: 演练前 | 确认演练对象与目标 确定演练对象,例如可以是整个系统,某个部分,或者某个服务等等; 确定演练目标,包括期望模拟出哪些故障场景

    1.9K30编辑于 2023-10-13
  • 来自专栏腾讯云中间件专家服务

    容灾演练-故障切换

    ② 应用服务计算层故障切换(应用 APP ) 。 ③ 数据库服务实例层故障切换(数据库 Instance )。 ④ 数据副本层故障切换(数据副本)。 2. 但是如果建立跨中心的大集群会增加对跨数据中心L2网络的过度依赖(L2的打通、横向流量的控制、ACK数据流的控制等),增加网络架构复杂度,而且LB之间的会话同步也无法得到像小集群那样的质量。  2、如果LB层发生单边资源池功能不可用,容灾切换机制是什么? 这个故障可能是由单边LB集群服务节点、单边资源池节点等因素导致,总而言之最终的结果就是单边LB集群的业务VIP服务不可用。 ,那么会有两种选择1或者是2(如图)。 存储层的故障切换策略 5.1 存储网关服务模式 所谓存储网关模式,我们在《企业容灾选型指南- 2 :企业容灾的数据复制技术》当中介绍过, 就是在物理存储层之上增加一层网关技术,用以形成存储资源透明抽象层

    3.5K31发布于 2021-09-16
  • 来自专栏SRE运维进阶之路

    Etcd 高可用故障演练

    目的本次演练旨在测试 Kubernetes 的 etcd 高可用性,检验是否能够在其中一个 etcd 节点发生故障的情况下,其他 etcd 节点能够接管其工作,确保集群仍能正常运行。 集群架构演练场景在一个三节点的 Kubernetes 集群中,我们将模拟其中一个 etcd 节点的故障,观察剩余的 etcd 节点是否能够正常运行。 127.0.0.1 的 etcd 服务,所以当 M3 节点 etcd 服务停止后, M3 节点的 apiserver 也不能正常提供服务所以 haproxy 和 nginx 都必要配置正确的健康检查策略,可以自动剔除故障节点演练结果在停止一个 演练结果证明 Kubernetes 的 etcd 子系统具有较高的可用性,可以有效地应对节点故障的情况。 总结通过本次演练,我们验证了 Kubernetes 的 etcd 子系统的高可用性,并了解了在一个节点发生故障的情况下,其他节点是如何接管其工作的。

    67400编辑于 2023-06-19
  • 来自专栏FunTester

    混沌工程和故障演练

    2.建立稳定性指标 既然故障演练是混沌工程的实践,那么所有的演练都要站在混沌工程“建立一个围绕稳定状态行为的假说”的基础之上开始设计。 5.开始演练 开始演练前,通知所有干系人,包括相关业务的开发工程师、业务工程师及基础设施工程师。通知内容包含参与故障演练的服务、故障演练的开始时间、故障演练的结束时间、故障演练对应服务所在的集群环境。 在故障演练过程中,如果超出控制或者原定计划的故障影响范围,要立即终止故障演练,快速恢复系统,同时清理全部故障演练对系统的影响和痕迹。 因为故障演练是在真实环境中进行的,除被测业务之外,很多真实用户也在使用该系统,不能为了完成故障演练而引起真实故障。 6.结束总结 故障演练重点中的重点是恢复故障演练环节,故障演练都是在真实环境中完成的,因此一定要记住恢复全部环境,关闭故障注入工具,恢复降级处理的服务,以保证服务可以恢复到故障演练之前的正常状态。

    1.2K31编辑于 2023-08-04
  • 来自专栏程序员升级之路

    故障演练利器之ChaosBlade介绍

    一、什么是ChaosBlade ChaosBlade是阿里巴巴在其自身故障测试和演练实践基础上,结合自身业务场景而开发的故障注入工具。 该工具目前已经开源,项目地址: https://github.com/chaosblade-io/chaosblade 二、为什么需要故障演练 ChaosBlade是一款故障注入工具 ,是整个故障演练的一个小环节,那为什么要做故障演练呢? 故障演练主要是通过模拟一个个故障场景来验证程序的可靠性和可用性,这样也反过来提升系统架构,为后续开发、设计提供一些指导。 ","Scope":"","ActionName":"fullload","ActionFlags":{}}} 功能大概分几大块: 1、模拟CPU负载高 blade create cpu load 2

    2.8K50发布于 2020-09-11
  • 来自专栏码匠的流水账

    redis的sentinel模式故障演练

    Up 6379/tcp sentinel_slave_2 docker-entrypoint.sh redis ... 172.17.0.3 6379 @ redis-master 172.17.0.2 6379 1:X 12 Sep 06:46:43.467 * +sentinel sentinel 927320a2afbfd70eae1716e8a024c726e71f2b51 172.17.0.2 6379 1:X 12 Sep 06:48:32.777 # +new-epoch 1 1:X 12 Sep 06:48:32.784 # +vote-for-leader 927320a2afbfd70eae1716e8a024c726e71f2b51 failover before Wed Sep 12 06:48:43 2018 1:X 12 Sep 06:48:33.857 # +config-update-from sentinel 927320a2afbfd70eae1716e8a024c726e71f2b51 resynchronization not possible (no cached master) 1:S 12 Sep 06:56:17.211 * Full resync from master: b2e78c2c21c3a4caa7a37fe86da9b3a2cda0dce4

    1K10发布于 2018-09-17
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】CPU 高负载故障演练

    为何需要进行 CPU 高负载故障演练? 服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。 为了更好地了解自己的服务性能,增强系统的稳定性,以及提高应对故障的能力,需要一种有效的方式来模拟 CPU 高负载故障,定期对自己的服务进行演习,以便提前发现问题,做好应急预案。 腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理 使用腾讯云混沌演练平台实施CPU高负载。 故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent,并安装至云CVM服务器上,然后使用tat通道下发命令,启动一个名为chaos_burncpu 的进程,空跑for循环来消耗CPU时间片 快速开始 可前往腾讯云混沌演练平台,参照CVM 资源利用率高指引文档进行演习。

    1.2K10编辑于 2024-03-15
  • 来自专栏腾讯云原生团队

    基于 Playbook 实现 TKE 控制面故障演练

    但真实的业务故障演练,从来不是单一原子化操作,更多的是模拟业务实际使用场景、再结合业务领域关键链路等进行统一演练,这意味着: 原子化能力是基础:必须具备将故障抽象为可复用的标准化操作(如“关机”“负载注入 ”)的能力; 场景化编排是核心:演练需融合专家经验,覆盖从单点故障到复杂故障链的全生命周期(预检→业务负载模拟->故障注入→指标采集→恢复→后检)。 展示了故障演练的整体流程,通过定义清晰的流程模板可灵活配置不同故障场景。 执行演练演练流程以 Argo Workflow 进行编排,包括故障注入、维持故障注入、故障恢复等主要步骤。 结语 本文阐述了基于 Playbook 交付的 K8s 控制面故障演练能力,凭借场景化交付、可编排、自助式执行等优势填补了容器托管服务下对控制面故障演练能力的缺失。

    36110编辑于 2025-06-12
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】Redis故障演练-主从切换

    然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。 为何需要进行Redis的混沌演练? 此时进行Redis的主从切换混沌演练便是一个科学的方法。 如果此故障节点为主节点时,腾讯云Redis将采取故障切换机制,将重新从备节点选举新的主节点。 腾讯云混沌演练平台基于以上特性,提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作,您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。 优先同可用区切换 模拟主节点发生故障时,腾讯云Redis真实HA策略场景:数据最新节点优先提主;数据相同时,优先同可用区其他节点选举 2.

    1.4K10编辑于 2024-03-15
  • 来自专栏腾讯专有云

    MariaDB在Oscar故障演练平台的测试实践

    2 TCS Oscar故障演练平台介绍 Oscar 是专有云第一款基于混沌工程理论实现的故障演练商业化产品,经过两次版本迭代,在产品能力上快速追平了竞品,并在目标域控制策略、演练报告、一键演练等能力上赶超竞品 2.1 接入流程 Step1 新建组件演练库: Step2 选择经验库(也就是故障注入类型,包含网络、资源、主机等方面): Step3 设置经验库参数,包含通用参数(执行等待时间以及持续时长)和经验库的特定参数 2 主从演练 case 主从架构从上述 case 演练结果来看,存在一个共性问题,即切主后的数据一致性问题,目前仍在解决该问题,预计2022年11月中下旬可以提供修复后的新版本。 Oscar 有着丰富的故障注入场景,目前支持主机、容器类总共33种演练经验库。从演练案例耗时来看,Oscar 耗时2分钟,chaosblade 耗时20分钟。 2 展望 Oscar 暂不支持演练报告,为了能方便快捷获取到演练任务详细信息,期待下一个 Oscar 支持演练报告的版本。

    88620编辑于 2022-12-10
  • 来自专栏大数据那些事

    keepalived(4)——演练故障出现时keepalived的状态

    keepalived的主要作用体现在处理单点故障,像前面我们设置的两台主机,就可以进行故障演练,现在的状态是master主机开启着keepalived: ? ?

    67020发布于 2020-11-11
  • 企业级YashanDB故障恢复演练及应急预案

    无论是由于自然灾害、硬件故障还是人为失误,数据库系统的故障均可能导致业务中断和数据丢失。故障恢复是确保数据库高可用性和数据安全性的关键过程。 YashanDB作为企业级数据库解决方案,具备强大的故障恢复能力,能够支持高可用性部署架构。本文旨在探讨YashanDB的故障恢复演练及应急预案,帮助企业提前规避风险、应对故障并保障业务持续运行。 在故障恢复时,根据具体部署架构,及时判断故障源及性质,从而采取适合的恢复措施。2. 主备复制机制在YashanDB中,主备复制是实现数据高可用的基本手段。 具体操作建议定期进行故障恢复演练,包括主备切换和数据恢复测试,确保系统的应急响应能力。实施完整的备份策略,确保全库备份与增量备份定期执行并验证完整性。 YashanDB通过主备复制、先进的日志管理等功能,提供了多种故障恢复的可行性和灵活性。企业应不断更新和完善故障恢复演练及应急预案,通过主动出击,才能在面对突发故障时,更加从容应对,保障系统稳定运行。

    20010编辑于 2025-09-12
  • 来自专栏k8s技术圈

    混沌故障演练如何尽可能保障生产环境不被破坏

    频繁的故障演练使开发团队能从问题中学习经验,从而对服务集群的稳定性有更高的重视。 因此,可以考虑以下方面尽可能保障生产环境的演练不被破坏: 一、管理方面 1.1、演练人员要做到熟练使用,了解清楚具体某个实验的配置/参数的作用,做到有的放矢; 1.2、生产环境故障注入前,先在测试或者沙盒环境验证和测试 , 评估该故障对上下游的影响范围,做到心中有数; 1.3、选择合适的时间段进行演练故障注入时间应选择空闲时段; 1.4、针对可能破坏的演练,提前做好备份计划和容灾预案,以防不时之需。 (降级失败数),表示 API 对 Gallery 的故障降级 fallback 生效 • 在实验组注入故障后,监控指标能快速恢复至预期,可以认为系统是具备故障容错恢复能力的,否则就存在弱点。 2021.9-2021.11 应用层演练: 这个阶段实践的主要对象是应用的各类进程问题。当大规模的故障已经得到了基本保障,但是应用状态频出,此时就可以考虑落地应用演练了。

    1.1K41编辑于 2023-08-25
  • 来自专栏公众号-测试驿栈

    安全测试基础2-sqlmap演练

    它支持MySQL, Oracle,PostgreSQL, Microsoft SQL Server, Microsoft Access, IBM DB2, SQLite, Firebird,Sybase

    88220发布于 2019-08-20
  • Linux服务器崩溃急救指南:实战演练常见故障排查

    二、故障初步诊断:先判断"死没死透"服务器出现异常时,第一步要判断故障级别。尝试SSH远程登录:若能登录说明系统仍在运行,可能是个别服务挂死。 重新安装grub2:grub2-install /dev/sda。重建配置文件:grub2-mkconfig -o /boot/grub2/grub.cfg。 常见场景三:硬件故障排查硬件故障排查则需结合日志和工具:硬盘状态检查:通过带外管理查看硬盘状态,若RAID卡报警,用对应工具检查阵列健康度,比如MegaCLI查看LSI RAID卡信息:MegaCli64 内存故障检测:若怀疑内存故障,可在服务器启动时进入Memtest86+进行内存检测,一般跑3轮无错误可排除内存问题。 故障复盘:恢复正常后,必须进行故障复盘:查看/var/log/messages系统日志、/var/log/dmesg内核日志,定位故障根源。若是硬件问题,评估是否需要批量更换同批次配件。

    59710编辑于 2025-11-03
  • 云顾问混沌演练平台:如何精准实现容器负载类故障注入?

    腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 负载类故障注入主要模拟系统在极端资源消耗情况下的表现,例如CPU满载、内存耗尽、IO压力过大等情况。这类故障注入帮助企业验证容器在资源紧张情况下的响应能力和弹性扩展机制。2. 云顾问混沌演练平台如何精准实现负载类故障注入?腾讯云云顾问混沌演练平台利用创新的技术,通过创建稳定的辅助执行环境(称为chaos-helper-pod),实现容器故障的精准注入。 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器

    41921编辑于 2025-05-20
  • 来自专栏TakinTalks稳定性社区

    如何在金融企业推进故障演练?中国人寿分阶段实践总结

    整个过程根据系统的复杂度,短则持续1周,长则2-3周。演练完成后,就能形成适合该系统的比较完整的故障清单。 2)第二轮:集中研讨整改措施 以线下集中的形式开展,时间是半天左右。 2)对数据库高可用、PAAS平台多活、应用限流熔断、监控和告警等进行了全面验证; 3)首次生产应急演预案有效性验证,应用弹性扩容、数据库扩容和重启等。 四、故障演练解决了哪些实际问题? 2)高可用举措有效性验证 架构设计的落地情况验证。 前面讲到进行了30轮演练后,我们发现监控缺失和告警规则不合理占大部分。我相信这种情况应该在各家公司是普遍存在的。 2)应急预案有效性验证 促进应急预案的完善; 锻炼运维队伍,提升故障处置时效。 2、混沌工程构建故障是用的哪些测试工具?测试环境和准生产环境使用的工具有哪些不同? 3、故障演练、在线压测如何分工与协作? 4、怎么做到月度生产故障和重大生产问题故障的混沌场景,镜像生产数据?

    58710编辑于 2023-12-04
  • 来自专栏微观技术

    故障演练】 Redis Cluster集群,当master宕机,主从切换,客户端报错 timed out

    2) (integer) 8003 3) "6c574c9d1323c69ebc73a5977bcbd3d4c073a4d4" 4) 1) "127.0.0.1" 2) ( integer) 8006 3) "123d0b157078925743ac1deb96be8c3395d7d038" 2) 1) (integer) 0 2) (integer) 5460 3) 1) "127.0.0.1" 2) (integer) 8001 3) "99bc05e81ef0035a4ab2d13cbae2599425b7ed7d" 4) 1) "127.0.0.1" 2) (integer) 8004 3) "402e900ef364ce9382beddf92747cf28e3ea9c2f" 3) 1) ( integer) 5461 2) (integer) 10922 3) 1) "127.0.0.1" 2) (integer) 8002 3) "fda6a9e49205a52418c0bca4c66c981066017a3c

    3K20编辑于 2022-04-07
  • 来自专栏PostgreSQL研究与原理解析

    PG复制和自动故障转移--2

    PostgreSQL 复制和故障转移设置 该设置由两台通过 LAN 连接的 CentOS 7 机器组成,其中安装了 PostgreSQL 版本 10.7。 postgres=# select * from abc; a | b ---+------- 1 | One 2 | Two 3 | Three (3 rows) PostgreSQL 手动故障转移步骤是什么 使用 EDB Postgres Failover Manager (EFM) 可以轻松设置自动故障转移。 PostgreSQL 的 repmgr 另一个开源工具是 repmgr(复制管理器),它还管理 PostgreSQL 集群的复制和故障转移。 正确配置后,repmgr 可以检测主服务器何时发生故障并执行自动故障转移: https://www.enterprisedb.com/postgres-tutorials/how-implement-repmgr-postgresql-automatic-failover

    95410编辑于 2022-04-28
  • 来自专栏磐创AI技术团队的专栏

    Pytorch入门演练

    2. 运算 Tensor运算有多种语法。在下面的示例中,我们将先示例加法运算。 0.4936, -0.0398], [-2.0623, -0.5140, 1.6162], [ 0.3189, -0.0327, -0.5353]]) 加法运算:语法2 a.add_(1) print(a) print(b) 输出: tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.] 2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64) 除了Char(字符型)Tensor之外,CPU上的所有Tensors都支持转换为NumPy及返回。

    74020发布于 2019-01-02
领券