首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】PodNode CPU 故障注入

    本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。 2. 3. 案例 3.1 使所有 CPU 核负载达到 80% . 实现原理 混沌工具在进行 CPU 负载故障注入时,主要通过以下方式实现: 启动 chaos_burncpu 进程,空跑 for 循环来消耗 CPU 时间片。 通过以上方法,我们可以轻松地对 Pod/Node 进行 CPU 负载故障注入,从而验证系统在不同负载下的表现,以及监控告警、流量调度、弹性伸缩等能力。 使用腾讯云混沌演练平台实施 CPU 高负载。 故障实现原理是预先在混沌演练平台探针管理处安装腾讯自研 Agent 探针。

    92410编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】PodNode 内存高负载故障注入

    本文将介绍如何使用混沌工具对 Pod/Node 进行内存负载故障注入,以达到指定的内存占用百分比。腾讯云混沌演练平台故障动作:标准集群 Pod/普通节点-内存利用率高。 2. 3. 案例 3.1 占用 80% 内存 . 实现原理 混沌工具在进行内存负载故障注入时,主要通过以下方式实现: ram 模式:启动进程 chaos_burnmem 不断申请内存,模拟主机/容器内存负载升高。 为了保护该进程在故障注入期间一直存在,不被杀死,可以打开 oomGuard 保护,降低该进程 oom-kill 权重,优先杀死其他进程。 设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用。 cache 模式:通过挂载 tmpfs 来实现内存占用。

    57310编辑于 2024-03-15
  • 来自专栏程序员吾真本

    K8S故障注入混沌工程开源平台ChaosMesh

    可注入的故障 可注入的故障,包括基本资源故障,平台故障和应用故障这3类。 可视化操作 可视化操作,包括可以在Web UI上点击鼠标,定义实验的范围、故障注入类型和调度规则,最后能展示实验结果。 安全控制 安全控制,包括使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。还可以通过设置命名空间注解,来指定允许进行混沌实验的命名空间,进一步保障对混沌实验的控制。 使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。 劣势 只能在K8S集群上使用。否则,就只能使用针对节点进行故障注入实验的附带工具chaosd。 临时执行的实验会无限期地运行。 你还希望我聊有关混沌工程的其他什么新话题?欢迎在评论区留言。我会仔细阅读每一条留言。期待听到你的声音。 企业生意好,系统运行稳。你所阅读的文章,来自“吾真本说混沌工程”专栏。

    59820编辑于 2023-08-15
  • 来自专栏程序员吾真本

    K8S故障注入混沌工程开源平台ChaosMesh

    可注入的故障 可注入的故障,包括基本资源故障,平台故障和应用故障这3类。 实验工作流 实验工作流,包括编排顺序或并行执行的故障注入实验,查看实验状态和结果,暂停实验,支持用YAML或Web UI定义和管理实验。 可视化操作 可视化操作,包括可以在Web UI上点击鼠标,定义实验的范围、故障注入类型和调度规则,最后能展示实验结果。 安全控制 安全控制,包括使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。还可以通过设置命名空间注解,来指定允许进行混沌实验的命名空间,进一步保障对混沌实验的控制。 使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。 劣势 只能在K8S集群上使用。否则,就只能使用针对节点进行故障注入实验的附带工具chaosd。 临时执行的实验会无限期地运行。

    60430编辑于 2023-08-16
  • 云顾问混沌演练平台:如何精准实现容器负载类故障注入

    腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 具体步骤如下:动态部署混沌辅助执行Pod: 混沌工程控制平台接收到用户的故障注入请求后,会在目标业务容器所在的节点动态启动一个chaos-helper-pod,这个Pod内置了各种故障注入工具,如CPU 3. 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器

    41921编辑于 2025-05-20
  • 来自专栏程序员吾真本

    7个检验软件系统稳定性场景的混沌工程故障注入开源工具ChaosBlade

    ChaosBlade可针对多达7个场景开展故障注入实验,但网上官方的中英文文档质量欠佳,内容缺失,真心没有站在一般用户的角度来写,只能通过运行blade命令的help了解究竟有什么功能。 图片 一句话介绍 ChaosBlade是阿里巴巴开源的针对7个检验软件系统稳定性场景的混沌工程故障注入开源工具:主机基础资源、CRI容器、K8S平台、Java应用、C++应用、阿里云平台、其他服务。 场景3:K8S平台 可注入故障包括向K8S平台内容器、node和pod注入故障。 场景4:Java应用 可注入故障包括代码缓存爆满,内存不足,增加延迟,返回特定值,动态执行脚本,抛异常等。 案例 国内有金融行业的用户,已经基于ChaosBlade开发了混沌工程工具平台,在测试环境注入故障,检验基础设施和容器平台的稳定性。 你所阅读的文章,来自“吾真本说混沌工程”知乎专栏。

    1.1K00编辑于 2023-08-12
  • DeepSeek 3FS源码分析(1) 故障注入

    模拟故障 本文 DeepSeek 3FS 测试用例举例说明 我也也没看太明白 就是FAULT_INJECTION_SET(10, 5);宏函数搞定 一、设计原理 维度 Ceph 方式 3FS 方式 配置方式 • 3FS 的故障注入框架基于 概率触发 + 作用域管理 的设计,通过 folly::RequestContext 实现跨协程的配置传递。 3fs设计特点 1 声明式 API: 通过 FAULT_INJECTION_SET(概率, 次数) 声明故障注入范围,具体故障类型由业务代码决定 2 RAII 自动管理: 利用 C++ 的 RAII 模式 FAULT_INJECTION_SET(10, 5) 是一个用于故障注入测试的宏,它会在当前代码作用域内设置故障注入参数: FaultInjection.h:16 • 第一个参数 (10): 表示故障注入的概率为 DeepSeek 3FS解读与源码分析(3):Storage模块解读 2.

    27510编辑于 2025-11-20
  • 来自专栏猫头虎博客专区

    故障注入实验:了解如何使用Chaos Engineering的方法,在服务网格中进行故障注入实验

    对于关心系统健壮性、微服务稳定性和混沌工程 的读者,这篇文章将为你提供丰富的实践知识! 引言 混沌工程不仅仅是故意制造故障,而是一种科学的方法,通过故障注入来发现系统中的潜在问题,并验证系统的弹性。 服务网格,作为微服务架构的通信层,为我们提供了强大的故障注入工具,帮助我们更好地进行混沌实验。 正文 1. 什么是混沌工程? 混沌工程是一种通过主动注入故障来验证系统健壮性的方法。 apiVersion: networking.istio.io/v1alpha3 kind: VirtualService metadata: name: ratings spec: hosts 3. 进行混沌实验的步骤 3.1 定义实验目标 明确你希望通过混沌实验验证的假设。 3.2 选择注入的故障类型 根据实验目标,选择合适的故障类型,如延迟、错误等。 总结 混沌工程为我们提供了一种验证系统健壮性的强大工具。通过服务网格,我们可以更加方便地进行故障注入实验,验证微服务架构的弹性。正如混沌工程的创始人所说,要“通过混沌来建立信心”。

    52910编辑于 2024-04-09
  • 来自专栏全栈程序员必看

    istio框架(istio故障注入)

    --- apiVersion: extensions/v1beta1 kind: Deployment metadata: name: nginx-v3 spec: replicas: 2 selector: matchLabels: app: nginx version: v3 template: metadata: name: nginx-v3 labels: app: nginx version: v3 spec: containers: - name: nginx-v3 image: linuxwei/nginx_test:v3 imagePullPolicy: IfNotPresent env: - name v3访问路径project/index.html kubectl apply -f nginx-destinationrule.yaml apiVersion: networking.istio.io

    61830编辑于 2022-08-01
  • 来自专栏程序员吾真本

    以线上事故驱动混沌工程更能展现价值

    云生产环境线上事故驱动混沌工程 2008年,奈飞DVD租赁业务因数据库故障中断3天。于是他们决定上AWS云服务,摆脱单点故障。但业务系统运行所依赖的AWS服务实例会突然消失,使得流媒体业务中断。 说到了测试,那么混沌工程实验与故障注入测试的区别是什么? 混沌工程实验与故障注入测试相辅相成 混沌工程实验是要证实或证伪复杂云系统在故障注入后的稳态假说是否成立,并研究其间系统的运行模式、未知的失效模式以及监控告警的有效性,以便增强系统稳定性设计。 一个好的稳态假说,具备3个特点:1)全局性;2)用户价值性;3)可证实性。 混沌工程演练主要关注系统在故障演练期间以下稳态指标:1)系统业务指标:系统交易错误率统计;2)系统性能指标:系统交易TPS和响应时长;3)系统资源指标:系统服务器CPU、内存、磁盘IO以及网络资源指标变化情况

    1K21编辑于 2022-09-26
  • 来自专栏程序员吾真本

    混沌工程和软件系统稳定性实践在技术大会上没啥可讲的?

    图片根据InfoQ最近3年推出的DevOps和云技术趋势鸿沟曲线显示,在国外,混沌工程实践已经在2022年跨过早期采纳者和早期大众之间的鸿沟,进入业界主流。 因为国内业界对于创新工程实践的采纳相对滞后,估计混沌工程在国内应该有3~5年左右就能跨过鸿沟,进入主流。图片图片图片混沌工程在Thoughtworks公司的技术雷达上的位置,也能从侧面印证这一点。 如果是甲方购买了乙方的虚拟机和容器平台,然后再在上面做相关的故障注入实验,本质上是甲方再次花钱为乙方做回归测试。企业一旦在上面两个方面开展混沌工程应用工作,过程就相对固化下来。 能否举一个红蓝军协作开展混沌工程实验(从测试环境到生产环境)的整个过程的例子?3 你们在实践混沌工程时,遇到了什么阻力?你们是如何应对阻力的?4 企业内的分布式系统一般会由多个开发团队维护。 2 你们所实践的混沌工程应用,与传统的测试团队的软件测试,以及与运维部门的传统故障演练,有什么区别?差异化优势在哪里?3 如何保障故障注入后的最小化爆炸半径?

    49730编辑于 2023-07-22
  • 来自专栏运维之路

    3.3.2 混沌工程:提升未知故障下应急管理能力

    本篇是《数智万物下的运维思考》第3部分“流程”第3章的“故障管理中的事前管理”的部分内容。 从公开信息看,国内的混沌工程实践比较早的是阿里,阿里的团队分享了一些混沌工程的实践经验,开源了故障注入的代码,阿里云还有一个故障演练的应用(虽然我认为混沌工程与演练是有区别的)。 3、站在“未知故障与业务连续性”看混沌工程 混沌工程比较火,有些把与演练、测试相关的工作包装成混沌工程,也有一些则将混沌工程限定在分布式架构系统中。 (3)自动化操作:通过应急处理过程,查看是否可以进行自动化程度的提升。 执行层面,加强故障注入、故障观察、故障恢复的管控能力,控制好故障影响范围,在对生产保持敬畏之心的基础上践行混沌工程,并建立持续优化的闭环协同机制,混沌工程最终是为了解决问题。

    1.8K41发布于 2021-04-26
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo

    2019年3月8日,富途(Nasdaq: FUTU)正式登陆美国纳斯达克交易所。 专线网络容灾能力 3. 逻辑层虚拟机、容器集群容灾能力 4. 数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 解决方案:混沌演练平台支持多实例并发故障注入,能够真实有效地模拟可用区级别的故障场景,极大提高了故障演练整体效率。 挑战3: 故障注入效果观测 在一次演练GameDay活动中,业务方往往需要实时关注系统所依赖的各个云产品监控指标情况,以评估故障演练效果,把控风险。

    1.6K152编辑于 2024-03-13
  • 来自专栏程序员吾真本

    混沌工程和软件系统稳定性实践在技术大会上没啥可讲的?

    承受生产环境中动荡条件 根据InfoQ最近3年推出的DevOps和云技术趋势鸿沟曲线显示,在国外,混沌工程实践已经在2022年跨过早期采纳者和早期大众之间的鸿沟,进入业界主流。 因为国内业界对于创新工程实践的采纳相对滞后,估计混沌工程在国内应该有3~5年左右就能跨过鸿沟,进入主流。 能否举一个红蓝军协作开展混沌工程实验(从测试环境到生产环境)的整个过程的例子? 3 你们在实践混沌工程时,遇到了什么阻力?你们是如何应对阻力的? 4 企业内的分布式系统一般会由多个开发团队维护。 2 你们所实践的混沌工程应用,与传统的测试团队的软件测试,以及与运维部门的传统故障演练,有什么区别?差异化优势在哪里? 3 如何保障故障注入后的最小化爆炸半径? 4 你们所开展的故障注入实验,是否主要针对基础设施层或容器平台层?是否有针对应用服务层做故障注入实验?

    28120编辑于 2023-07-24
  • 来自专栏butterfly100

    混沌工程:通过试错的方法来提升稳定性

    什么是混沌工程? 2. 混沌工程的实践原则 3. 混沌工程的好处 4. 基于上述原则如何落地? 4.1 故障注入能力 4.2 平台化建设 4.3 应用推广 5. 5、最小化爆炸半径 在生产环境中进行混沌实验,让系统的薄弱环节曝光,有导致生产环境崩溃的风险,并造成不必要的客户投诉,所以需要最小化爆炸半径,保证这些后续影响最小化,精细化控制故障的影响范围。 3. 4.2 平台化建设 基于故障注入的能力,将混沌实验的流程平台化,让用户更方便的使用。如下图: ? (1)平台产品层 基于上文「3. 自动化测试平台、切流平台,复用流量构造方式,作为实验组的流量; (3)底层基础能力 故障能力库:提供故障注入、清除的能力。 MTTR(Mean Time To Restoration)度量指标,比如故障的 “发现-定位-恢复” 时长这种综合性指标 3、推广混沌工程,要在控制风险的前提下不断提升效率 越贴近生产环境的实验,结果越真实

    1.7K41发布于 2021-07-16
  • 来自专栏深度学习与python

    混沌工程在工商银行的探索实践 | Q推荐

    ,帮助大家了解混沌工程故障注入的流程,以及在开源框架上的选型策略。 那业界混沌工程实施的工具这么多,那在工行进行混沌工程故障演练平台建设的时候,就要思考是选择自研故障注入工具,还是直接引用开源的故障注入工具。如果引用开源的故障注入工具,引入哪款开源工具。 2019 年 3 月阿里开源混沌工程工具 ChaosBlade,同年 9 月,工商银行完成基于 ChaosBlade 的混沌工程故障演练平台建设,并在开发中心,业务研发中心对行内重点敏感业务线进行试点, 最终,混沌工程故障注入介质将会安装在这些基础设施上实施各类的故障。 在基础实施层之上,基于 ChaosBlade 进行二次开发的混沌工具故障注入介质。 ,此外我们也开发了故障注入任务解析模块,该模块可将混沌工程故障演练管理平台下发的故障演练任务解析成多个故障注入事件,然后根据各个故障注入事件的开始和结束时间分别调用 ChaosBlade 故障注入工具实施故障注入和撤销操作

    1.2K21发布于 2021-06-08
  • 来自专栏测试开发技术

    推荐一款开源混沌工程测试平台:Chaos Mesh

    1、Chaos Mesh 介绍 Chaos Mesh是一个开源的混沌工程平台,旨在帮助用户在生产环境中测试、验证和优化其应用程序的可靠性和稳定性。 通过引入故障注入混沌工程原则,Chaos Mesh可以模拟各种故障场景,如网络延迟、节点故障、磁盘故障等,以帮助用户发现和解决系统中的潜在问题。 3、Chaos Mesh 安装步骤 1、下载 Chaos Mesh:可以从 Chaos Mesh 的 GitHub 仓库中获取最新版本的安装文件。 charts.chaos-mesh.org helm install chaos-mesh chaos-mesh/chaos-mesh --namespace=chaos-testing --version=0.12.0 3、 可以使用以下命令运行实验: chaosctl start network-delay --name my-network-delay 3、监控和观察:可以使用 Chaos Mesh 提供的监控和可观测性功能

    1.1K11编辑于 2024-08-27
  • 来自专栏程序员吾真本

    K8S下Istio就是检验微服务稳定性的混沌工程开源工具

    应该做一个故障注入实验来检验一下。如果在K8S上使用了Istio,那么恭喜你,你已经拥有了简单易用的混沌工程开源工具。 故障注入实验利用了 Istio 在网络中的地位来执行实验,而无需添加任何额外的混沌工程工具或功能。 适用平台K8S适用场景如果已经使用了 Istio,那么这可以直接用它在集群上运行混沌实验,而无需部署或学习其他工具。 否则,仅仅为了这两种故障注入功能就部署 Istio ,就不值了。 复现这个问题时,我们把浏览器网速改为 3g 模式,就可以显著提升复现率。 你所阅读的文章,来自“吾真本说混沌工程”知乎专栏。

    44540编辑于 2023-08-12
  • 来自专栏k8s技术圈

    蚂蚁开源的云原生混沌工程平台 - ChaosMeta

    ,还是只想要底层的远程注入、编排调度等平台能力,甚至是只想要单机故障注入能力,或者对云上/云下的目标进行管理以及注入故障,都有相应的部署方案可以满足 丰富的故障注入能力,云原生混沌工程 由于蚂蚁集团对攻防演练的高度重视 平台功能强大,支撑完整“混沌工程生命周期”,面向自动化 ChaosMeta 覆盖准入检测、流量注入、故障注入、故障度量、故障恢复、恢复度量等多个阶段的平台能力,作为“自动化混沌工程”的技术基础。 故障度量是对故障注入效果的有效性度量,而恢复度量是对防御平台恢复能力的有效性度量。度量能力是实现混沌工程自动化以及智能化的关键能力。 monitor:对监控项的值进行预期判断,比如某个机器的 cpu 使用率监控值是否大于90%,默认支持 prometheus pod:对 pod 相关数据进行预期判断,比如某个应用的 pod 实例数是否大于3 -t 10m # 查看实验信息,测试效果 chaosmetad query curl 127.0.0.1:8080 # 人工恢复实验 chaosmetad recover test-fg3g4

    2.3K10编辑于 2023-11-27
  • 来自专栏程序员吾真本

    如何让混沌工程实验降本增效

    混沌工程实验性价比太低了。测试、研发和运维三个部门都投入了大量人力物力,在准生产环境做了不少故障注入实验。但发现的问题还是比较少。”在一次混沌工程实践回顾会上,一位测试人员如是说。 最先响应运维部门实践混沌工程召唤的,是测试部门。测试部门认为混沌工程的故障注入实验,能丰富他们的压力测试和探索性测试的场景,从而发现更多软件缺陷。 他们认为,混沌工程的故障注入实验,其实就是另一种测试而已。 确实,测试部门就是把混沌工程故障注入实验,当作探索性测试来做的。“混沌工程实验,类似于探索性测试。 缺乏明确的稳态行为假说 由于测试人员使用探索性测试的方法,来实践混沌工程故障注入实验,所以在实验结果报告中,找不到“系统稳态行为假说”的字眼。 这些测试人员正在使用一款开源工具,来进行混沌工程故障注入实验。由于这款工具,提供了5种可供注入的原子故障,于是测试人员也就设计了5个实验。

    48620编辑于 2021-12-16
领券