首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏windealli

    故障演练 | 微服务架构下如何做好故障演练

    什么是故障演练 故障演练是指模拟生产环境中可能出现的故障,测试系统或应用在面对故障时的反应和响应能力。 故障演练可以模拟各种故障情况(网络故障、数据库故障、服务过载,CPU或内存异常等)。 为什么需要故障演练 故障演练是微服务架构下非常重要的实践,用以测试系统或应用在面对故障或缺陷时的反应表现及其恢复能力。 故障演练可以促进团队沟通、理解和协作,完善生产环境的排障流程。 故障演练的目标 故障演练的目标是尽可能模拟真实世界中的故障情况,战略性推动全面和深入的风险管理与测试。 故障演练的基本流程 故障演练大致可以分为:计划、演练、评价、改进四个阶段,其基本流程如下图所示。 如何进行故障演练 故障演练通常可以按照面的流程和步骤来进行: 演练前 | 确认演练对象与目标 确定演练对象,例如可以是整个系统,某个部分,或者某个服务等等; 确定演练目标,包括期望模拟出哪些故障场景

    1.9K30编辑于 2023-10-13
  • 来自专栏腾讯云中间件专家服务

    容灾演练-故障切换

    容灾设计需要进行故障切换的场景 容灾设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到 ,其主要涉及如下几个方面: ① 网络层故障切换(路由、 DNS、交换机、负载均衡 )。 ② 应用服务计算层故障切换(应用 APP ) 。 ③ 数据库服务实例层故障切换(数据库 Instance )。 ④ 数据副本层故障切换(数据副本)。 2. 接下如上图,来看故障场景下的切换策略。 1、如果DNS层发生单边功能不可用,容灾切换机制是什么? 这个故障可能是由单边入口出口路由故障、单边交换机故障、单边DNS服务设备层导致,总而言之最终的结果就是客户端到DNS地址不可达。

    3.5K31发布于 2021-09-16
  • 来自专栏SRE运维进阶之路

    Etcd 高可用故障演练

    目的本次演练旨在测试 Kubernetes 的 etcd 高可用性,检验是否能够在其中一个 etcd 节点发生故障的情况下,其他 etcd 节点能够接管其工作,确保集群仍能正常运行。 集群架构演练场景在一个三节点的 Kubernetes 集群中,我们将模拟其中一个 etcd 节点的故障,观察剩余的 etcd 节点是否能够正常运行。 127.0.0.1 的 etcd 服务,所以当 M3 节点 etcd 服务停止后, M3 节点的 apiserver 也不能正常提供服务所以 haproxy 和 nginx 都必要配置正确的健康检查策略,可以自动剔除故障节点演练结果在停止一个 演练结果证明 Kubernetes 的 etcd 子系统具有较高的可用性,可以有效地应对节点故障的情况。 总结通过本次演练,我们验证了 Kubernetes 的 etcd 子系统的高可用性,并了解了在一个节点发生故障的情况下,其他节点是如何接管其工作的。

    67400编辑于 2023-06-19
  • 来自专栏FunTester

    混沌工程和故障演练

    在SLA中常用几个9来衡量提供服务的稳定性,9越多就代表团队提供的服务稳定性越高,故障时间越短。 下面举例说明。如果某团队提供的服务满足4个9,那么一年发生故障的时间可以通过以下方式计算。 365天×24小时/天×0.0001 = 0.876小时=52.56分钟 当前很多公司的服务要求满足5个9的要求,这时故障时间的计算方式如下。 5.开始演练 开始演练前,通知所有干系人,包括相关业务的开发工程师、业务工程师及基础设施工程师。通知内容包含参与故障演练的服务、故障演练的开始时间、故障演练的结束时间、故障演练对应服务所在的集群环境。 在故障演练过程中,如果超出控制或者原定计划的故障影响范围,要立即终止故障演练,快速恢复系统,同时清理全部故障演练对系统的影响和痕迹。 6.结束总结 故障演练重点中的重点是恢复故障演练环节,故障演练都是在真实环境中完成的,因此一定要记住恢复全部环境,关闭故障注入工具,恢复降级处理的服务,以保证服务可以恢复到故障演练之前的正常状态。

    1.2K31编辑于 2023-08-04
  • 来自专栏程序员升级之路

    故障演练利器之ChaosBlade介绍

    一、什么是ChaosBlade ChaosBlade是阿里巴巴在其自身故障测试和演练实践基础上,结合自身业务场景而开发的故障注入工具。 该工具目前已经开源,项目地址: https://github.com/chaosblade-io/chaosblade 二、为什么需要故障演练 ChaosBlade是一款故障注入工具 ,是整个故障演练的一个小环节,那为什么要做故障演练呢? 在我看来,主要是为了验证在故障场景程序的可靠性和可用性,因为大部分人写代码都有惯性,只喜欢写正向流程,对于一些异常处理往往是非常简单和粗暴的,所以很有可能出现在系统发生故障时可能出现各种问题:如数据丢失 故障演练主要是通过模拟一个个故障场景来验证程序的可靠性和可用性,这样也反过来提升系统架构,为后续开发、设计提供一些指导。

    2.8K50发布于 2020-09-11
  • 来自专栏码匠的流水账

    redis的sentinel模式故障演练

    proc/sys/net/core/somaxconn is set to the lower value of 128. 1:X 12 Sep 06:46:42.615 # Sentinel ID is 9e1da269ca7f134ed7bae15ad8efa3f5dd22f72d possible (no cached master) 1:S 12 Sep 06:56:17.211 * Full resync from master: b2e78c2c21c3a4caa7a37fe86da9b3a2cda0dce4

    1K10发布于 2018-09-17
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】CPU 高负载故障演练

    为何需要进行 CPU 高负载故障演练? 服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。 为了更好地了解自己的服务性能,增强系统的稳定性,以及提高应对故障的能力,需要一种有效的方式来模拟 CPU 高负载故障,定期对自己的服务进行演习,以便提前发现问题,做好应急预案。 腾讯云混沌演练平台为大家提供了这种故障演习能力。 CPU 高负载故障原理 使用腾讯云混沌演练平台实施CPU高负载。 故障实现原理是预先在混沌演练平台探针管理处下载腾讯云自研Agent,并安装至云CVM服务器上,然后使用tat通道下发命令,启动一个名为chaos_burncpu 的进程,空跑for循环来消耗CPU时间片 快速开始 可前往腾讯云混沌演练平台,参照CVM 资源利用率高指引文档进行演习。

    1.2K10编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】Redis故障演练-主从切换

    然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。 为何需要进行Redis的混沌演练? 此时进行Redis的主从切换混沌演练便是一个科学的方法。 如果此故障节点为主节点时,腾讯云Redis将采取故障切换机制,将重新从备节点选举新的主节点。 腾讯云混沌演练平台基于以上特性,提供手动方式跨过节点故障阶段直接模拟HA策略的故障动作,您可通过该手动故障方式模拟当 Redis 集群发生故障切换机制的短时间内对业务的影响。 优先跨可用区切换 模拟跨可用区整体故障时,其他可用区节点提主场景 通过混沌工程实现Redis主备切换的故障注入,企业可以更好地了解系统在故障场景下的表现,提前发现潜在问题,确保业务的稳定运行。

    1.4K10编辑于 2024-03-15
  • 来自专栏腾讯云原生团队

    基于 Playbook 实现 TKE 控制面故障演练

    但真实的业务故障演练,从来不是单一原子化操作,更多的是模拟业务实际使用场景、再结合业务领域关键链路等进行统一演练,这意味着: 原子化能力是基础:必须具备将故障抽象为可复用的标准化操作(如“关机”“负载注入 ”)的能力; 场景化编排是核心:演练需融合专家经验,覆盖从单点故障到复杂故障链的全生命周期(预检→业务负载模拟->故障注入→指标采集→恢复→后检)。 展示了故障演练的整体流程,通过定义清晰的流程模板可灵活配置不同故障场景。 执行演练演练流程以 Argo Workflow 进行编排,包括故障注入、维持故障注入、故障恢复等主要步骤。 结语 本文阐述了基于 Playbook 交付的 K8s 控制面故障演练能力,凭借场景化交付、可编排、自助式执行等优势填补了容器托管服务下对控制面故障演练能力的缺失。

    36110编辑于 2025-06-12
  • 来自专栏腾讯专有云

    MariaDB在Oscar故障演练平台的测试实践

    背景 为了进一步增强 TCS MariaDB 高可用能力,验证 MariaDB 在网络分区、删除 Pod 等一系列的故障场景中的表现,需要通过演练工具去模拟这些故障场景。 Oscar 是基于 TCS/TCE 的混沌工程演练平台,具备丰富的故障场景,同时兼备操作简单效率高等特点。 因此,MariaDB 通过接入 Oscar 演练平台测试实践,模拟更多更为复杂的故障场景,不仅可以提升演练效率,而且还加深研发对 MariaDB 在各种故障场景下表现的认知,从而优化并提升 MariaDB 2 TCS Oscar故障演练平台介绍 Oscar 是专有云第一款基于混沌工程理论实现的故障演练商业化产品,经过两次版本迭代,在产品能力上快速追平了竞品,并在目标域控制策略、演练报告、一键演练等能力上赶超竞品 ,开启故障演练: MariaDB 在 Oscar 平台演练实践 1 多主演练 case 多主架构上述 case 演练结果均符合预期。

    88620编辑于 2022-12-10
  • 来自专栏大数据那些事

    keepalived(4)——演练故障出现时keepalived的状态

    keepalived的主要作用体现在处理单点故障,像前面我们设置的两台主机,就可以进行故障演练,现在的状态是master主机开启着keepalived: ? ?

    67020发布于 2020-11-11
  • 企业级YashanDB故障恢复演练及应急预案

    无论是由于自然灾害、硬件故障还是人为失误,数据库系统的故障均可能导致业务中断和数据丢失。故障恢复是确保数据库高可用性和数据安全性的关键过程。 YashanDB作为企业级数据库解决方案,具备强大的故障恢复能力,能够支持高可用性部署架构。本文旨在探讨YashanDB的故障恢复演练及应急预案,帮助企业提前规避风险、应对故障并保障业务持续运行。 具体操作建议定期进行故障恢复演练,包括主备切换和数据恢复测试,确保系统的应急响应能力。实施完整的备份策略,确保全库备份与增量备份定期执行并验证完整性。 制定详细的故障处理手册,将故障恢复的步骤、注意事项进行记录与传播,确保所有成员知晓应急预案。结论随着企业数据规模的增加,优化故障恢复策略将成为维护业务连续性的核心竞争力。 YashanDB通过主备复制、先进的日志管理等功能,提供了多种故障恢复的可行性和灵活性。企业应不断更新和完善故障恢复演练及应急预案,通过主动出击,才能在面对突发故障时,更加从容应对,保障系统稳定运行。

    20010编辑于 2025-09-12
  • 来自专栏开发语言-Java

    Java并发编程学习9-并发基础演练

    在上述 Memoizer1 中,我们使用 HashMap 来保存之前计算的结果。由于 HashMap 不是线程安全的,代码对整个 compute 方法进行同步。虽然这种方法能确保线程安全性,但每次只有一个线程能执行 compute 方法,其他线程可能就被阻塞很长时间,严重影响计算的并发性。如果有多个线程在排队等待还未计算的结果,那么 compute 方法的计算时间可能比没有缓存操作的计算时间更长,这显然不是我们想要看到的。

    21511编辑于 2024-10-05
  • 来自专栏k8s技术圈

    混沌故障演练如何尽可能保障生产环境不被破坏

    频繁的故障演练使开发团队能从问题中学习经验,从而对服务集群的稳定性有更高的重视。 因此,可以考虑以下方面尽可能保障生产环境的演练不被破坏: 一、管理方面 1.1、演练人员要做到熟练使用,了解清楚具体某个实验的配置/参数的作用,做到有的放矢; 1.2、生产环境故障注入前,先在测试或者沙盒环境验证和测试 , 评估该故障对上下游的影响范围,做到心中有数; 1.3、选择合适的时间段进行演练故障注入时间应选择空闲时段; 1.4、针对可能破坏的演练,提前做好备份计划和容灾预案,以防不时之需。 (降级失败数),表示 API 对 Gallery 的故障降级 fallback 生效 • 在实验组注入故障后,监控指标能快速恢复至预期,可以认为系统是具备故障容错恢复能力的,否则就存在弱点。 2021.9-2021.11 应用层演练: 这个阶段实践的主要对象是应用的各类进程问题。当大规模的故障已经得到了基本保障,但是应用状态频出,此时就可以考虑落地应用演练了。

    1.1K41编辑于 2023-08-25
  • Linux服务器崩溃急救指南:实战演练常见故障排查

    二、故障初步诊断:先判断"死没死透"服务器出现异常时,第一步要判断故障级别。尝试SSH远程登录:若能登录说明系统仍在运行,可能是个别服务挂死。 常见场景一:服务卡死但系统存活登录后先执行top命令查看资源占用:CPU使用率接近100%:通过ps -ef找到占用过高的进程,用kill -9强制终止。 常见场景三:硬件故障排查硬件故障排查则需结合日志和工具:硬盘状态检查:通过带外管理查看硬盘状态,若RAID卡报警,用对应工具检查阵列健康度,比如MegaCLI查看LSI RAID卡信息:MegaCli64 内存故障检测:若怀疑内存故障,可在服务器启动时进入Memtest86+进行内存检测,一般跑3轮无错误可排除内存问题。 故障复盘:恢复正常后,必须进行故障复盘:查看/var/log/messages系统日志、/var/log/dmesg内核日志,定位故障根源。若是硬件问题,评估是否需要批量更换同批次配件。

    59710编辑于 2025-11-03
  • 云顾问混沌演练平台:如何精准实现容器负载类故障注入?

    腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 负载类故障注入主要模拟系统在极端资源消耗情况下的表现,例如CPU满载、内存耗尽、IO压力过大等情况。这类故障注入帮助企业验证容器在资源紧张情况下的响应能力和弹性扩展机制。2. 云顾问混沌演练平台如何精准实现负载类故障注入?腾讯云云顾问混沌演练平台利用创新的技术,通过创建稳定的辅助执行环境(称为chaos-helper-pod),实现容器故障的精准注入。 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器

    41921编辑于 2025-05-20
  • 来自专栏TakinTalks稳定性社区

    如何在金融企业推进故障演练?中国人寿分阶段实践总结

    温馨提醒:本文约4600字,预计花费9分钟阅读。 背景 在最近六七年时间里,中国人寿对原来烟囱式的架构做了持续改造。对诸如长险、短险、万能险等等独立系统中的类似功能,做了横向的专业化拆分、微服务拆分。 今天我将主要围绕中国人寿故障演练的项目背景、目标思路、技术方案等,分享其在预知故障和降低不确定性风险方面的实践成效。 一、故障演练想要达成哪些目标? 1.1 故障演练目标 故障演练的目标主要分为两块,业务目标和技术目标。 3.1 故障演练-测试环境 3.3.1 整体工作成效 从2022年7月开始至今,总计完成13个系统测试环境的故障演练,累计进行30轮演练,发现143个风险点并采取预防措施,整改问题超过50个。 接下来,基于开发环境对挑选出来的故障做预演练,其目的就是通过合适的方式生成故障——有些故障比较简单,通过故障工具可以直接生成,但需要找到合适的位置并做深度剖析;还有一些故障需要定制开发,并做演练迭代。

    58710编辑于 2023-12-04
  • 来自专栏微观技术

    故障演练】 Redis Cluster集群,当master宕机,主从切换,客户端报错 timed out

    (integer) 10923 2) (integer) 16383 3) 1) "127.0.0.1" 2) (integer) 8003 3) "6c574c9d1323c69ebc73a5977bcbd3d4c073a4d4 99bc05e81ef0035a4ab2d13cbae2599425b7ed7d" 4) 1) "127.0.0.1" 2) (integer) 8004 3) "402e900ef364ce9382beddf92747cf28e3ea9c2f 1) (integer) 5461 2) (integer) 10922 3) 1) "127.0.0.1" 2) (integer) 8002 3) "fda6a9e49205a52418c0bca4c66c981066017a3c " 4) 1) "127.0.0.1" 2) (integer) 8005 3) "24a1e23f6cbfb761234970b66043d562e79e3d9c" 人为模拟

    3K20编辑于 2022-04-07
  • 来自专栏磐创AI技术团队的专栏

    Pytorch入门演练

    Tensors(张量)类似于NumPy中的ndarray,另外它还可以使用GPU加速计算。

    74020发布于 2019-01-02
  • 来自专栏luozhiyun的技术学习

    9.源码分析---SOFARPC是如何实现故障剔除的?

    但是有一种情况是Consumer 和 Provider的长连接还在,注册中心未下发摘除,但服务器端由于某些原因,例如长时间的 Full GC, 硬件故障(后文中为避免重复,统一描述为机器假死)等场景,处于假死状态 目前 SOFARPC 5.3.0 以上的版本支持 RPC 单机故障剔除能力。SOFARPC 通过服务权重控制方式来减少异常服务的调用,将更多流量打到正常服务机器上,提高服务可用性。 官方的文档在这里:自动故障剔除 service public static void main(String[] args) { ServerConfig serverConfig = new catch (InterruptedException e) { e.printStackTrace(); } } } 自动故障剔除模块的注册 注册故障剔除模块 我们在8.源码分析---从设计模式中看SOFARPC中的EventBus?

    1.2K20发布于 2019-08-28
领券