首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】PodNode CPU 故障注入

    本文将介绍如何使用混沌工具对 Pod/Node 进行 CPU 负载故障注入,以达到指定的 CPU 负载百分比。 2. 参数 在进行 CPU 负载故障注入时,我们可以通过以下参数来控制: nice:指定 CPU 负载进程的 nice 值(静态优先级),取值范围为[-20, 19]。 实现原理 混沌工具在进行 CPU 负载故障注入时,主要通过以下方式实现: 启动 chaos_burncpu 进程,空跑 for 循环来消耗 CPU 时间片。 通过以上方法,我们可以轻松地对 Pod/Node 进行 CPU 负载故障注入,从而验证系统在不同负载下的表现,以及监控告警、流量调度、弹性伸缩等能力。 使用腾讯云混沌演练平台实施 CPU 高负载。 故障实现原理是预先在混沌演练平台探针管理处安装腾讯自研 Agent 探针。

    92410编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】PodNode 内存高负载故障注入

    本文将介绍如何使用混沌工具对 Pod/Node 进行内存负载故障注入,以达到指定的内存占用百分比。腾讯云混沌演练平台故障动作:标准集群 Pod/普通节点-内存利用率高。 2. 实现原理 混沌工具在进行内存负载故障注入时,主要通过以下方式实现: ram 模式:启动进程 chaos_burnmem 不断申请内存,模拟主机/容器内存负载升高。 为了保护该进程在故障注入期间一直存在,不被杀死,可以打开 oomGuard 保护,降低该进程 oom-kill 权重,优先杀死其他进程。 设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用。 cache 模式:通过挂载 tmpfs 来实现内存占用。 # 1、挂载目录 mkdir -p ${PATH}/burnmem_tmpfs mount -t tmpfs tmpfs ${PATH}/burnmem_tmpfs -o size=100% # 2

    57310编辑于 2024-03-15
  • 来自专栏程序员吾真本

    K8S故障注入混沌工程开源平台ChaosMesh

    实验工作流 实验工作流,包括编排顺序或并行执行的故障注入实验,查看实验状态和结果,暂停实验,支持用YAML或Web UI定义和管理实验。 可视化操作 可视化操作,包括可以在Web UI上点击鼠标,定义实验的范围、故障注入类型和调度规则,最后能展示实验结果。 安全控制 安全控制,包括使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。还可以通过设置命名空间注解,来指定允许进行混沌实验的命名空间,进一步保障对混沌实验的控制。 使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。 劣势 只能在K8S集群上使用。否则,就只能使用针对节点进行故障注入实验的附带工具chaosd。 临时执行的实验会无限期地运行。 你还希望我聊有关混沌工程的其他什么新话题?欢迎在评论区留言。我会仔细阅读每一条留言。期待听到你的声音。 企业生意好,系统运行稳。你所阅读的文章,来自“吾真本说混沌工程”专栏。

    59820编辑于 2023-08-15
  • 来自专栏程序员吾真本

    K8S故障注入混沌工程开源平台ChaosMesh

    Chaos Mesh 是针对K8S的云原生混沌工程开源平台。 可以用它方便地模拟开发、测试、生产环境中可能出现的各种异常情况,发现系统中潜在的问题。 实验工作流 实验工作流,包括编排顺序或并行执行的故障注入实验,查看实验状态和结果,暂停实验,支持用YAML或Web UI定义和管理实验。 可视化操作 可视化操作,包括可以在Web UI上点击鼠标,定义实验的范围、故障注入类型和调度规则,最后能展示实验结果。 安全控制 安全控制,包括使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。还可以通过设置命名空间注解,来指定允许进行混沌实验的命名空间,进一步保障对混沌实验的控制。 使用K8S原生提供的基于角色的访问控制功能,来管理故障注入的使用权限。 劣势 只能在K8S集群上使用。否则,就只能使用针对节点进行故障注入实验的附带工具chaosd。 临时执行的实验会无限期地运行。

    60430编辑于 2023-08-16
  • 云顾问混沌演练平台:如何精准实现容器负载类故障注入

    腾讯云云顾问混沌演练平台应运而生,通过精准的负载类故障注入,帮助企业提前发现并解决问题,提升系统稳定性。1. 什么是负载类故障注入? 负载类故障注入主要模拟系统在极端资源消耗情况下的表现,例如CPU满载、内存耗尽、IO压力过大等情况。这类故障注入帮助企业验证容器在资源紧张情况下的响应能力和弹性扩展机制。2. 具体步骤如下:动态部署混沌辅助执行Pod: 混沌工程控制平台接收到用户的故障注入请求后,会在目标业务容器所在的节点动态启动一个chaos-helper-pod,这个Pod内置了各种故障注入工具,如CPU 注入前云顾问混沌演练平台容器监控注入后云顾问混沌演练平台容器监控4. 对操作系统的要求腾讯云云顾问混沌演练平台在执行此类故障注入时并不直接依赖目标容器内的操作系统环境,因此对操作系统本身无特殊要求。 小结腾讯云云顾问混沌演练平台通过其创新的PID迁移机制和独立的辅助执行环境,实现了容器负载类故障注入的精确控制,确保故障注入的效果真实、准确,同时保障了混沌平台自身运行的稳定性,成为企业提升容器应用弹性和可靠性的重要利器

    41921编辑于 2025-05-20
  • 来自专栏程序员吾真本

    7个检验软件系统稳定性场景的混沌工程故障注入开源工具ChaosBlade

    ChaosBlade可针对多达7个场景开展故障注入实验,但网上官方的中英文文档质量欠佳,内容缺失,真心没有站在一般用户的角度来写,只能通过运行blade命令的help了解究竟有什么功能。 图片 一句话介绍 ChaosBlade是阿里巴巴开源的针对7个检验软件系统稳定性场景的混沌工程故障注入开源工具:主机基础资源、CRI容器、K8S平台、Java应用、C++应用、阿里云平台、其他服务。 场景2:CRI容器 可注入故障包括向容器内的基础资源注入故障,删除容器,以及向容器内各种服务注入故障。 场景3:K8S平台 可注入故障包括向K8S平台内容器、node和pod注入故障。 案例 国内有金融行业的用户,已经基于ChaosBlade开发了混沌工程工具平台,在测试环境注入故障,检验基础设施和容器平台的稳定性。 你所阅读的文章,来自“吾真本说混沌工程”知乎专栏。

    1.1K00编辑于 2023-08-12
  • 来自专栏全栈程序员必看

    istio框架(istio故障注入)

    spec: replicas: 2 selector: matchLabels: app: nginx version: v2 template: metadata : name: nginx-v2 labels: app: nginx version: v2 spec: containers : - name: nginx-v2 image: linuxwei/nginx_test:v1-2 imagePullPolicy: IfNotPresent v3 --- apiVersion: extensions/v1beta1 kind: Deployment metadata: name: nginx-v3 spec: replicas: 2 labels: version: v2 - name: v3 labels: version: v3 2.创建路由分发策略 kubectl apply -f

    61830编辑于 2022-08-01
  • 来自专栏猫头虎博客专区

    故障注入实验:了解如何使用Chaos Engineering的方法,在服务网格中进行故障注入实验

    在这篇博文中,我将带领大家探索如何在服务网格中进行故障注入实验,分享Chaos Engineering的最佳实践,并深入研究服务网格如Istio中的故障注入功能。 对于关心系统健壮性、微服务稳定性和混沌工程 的读者,这篇文章将为你提供丰富的实践知识! 引言 混沌工程不仅仅是故意制造故障,而是一种科学的方法,通过故障注入来发现系统中的潜在问题,并验证系统的弹性。 服务网格,作为微服务架构的通信层,为我们提供了强大的故障注入工具,帮助我们更好地进行混沌实验。 正文 1. 什么是混沌工程? 混沌工程是一种通过主动注入故障来验证系统健壮性的方法。 1.1 混沌工程的目的 发现潜在问题:揭示系统中未知的弱点。 验证系统弹性:确保系统在故障面前可以正常运行。 2. 服务网格与混沌实验 服务网格为我们提供了一系列工具,帮助我们进行混沌实验。 总结 混沌工程为我们提供了一种验证系统健壮性的强大工具。通过服务网格,我们可以更加方便地进行故障注入实验,验证微服务架构的弹性。正如混沌工程的创始人所说,要“通过混沌来建立信心”。

    52910编辑于 2024-04-09
  • 来自专栏深度学习与python

    混沌工程在工商银行的探索实践 | Q推荐

    ,帮助大家了解混沌工程故障注入的流程,以及在开源框架上的选型策略。 这里的复杂不一定是体量大,而是因为金融行业的数字化普遍比互联网公司开始的要早,加之金融业对信息系统的稳定性要求较高,因此在早期多少金融机构都采用的是 IBM 主机这一套,采用 COBOL+DB2 实现核心信息系统 那业界混沌工程实施的工具这么多,那在工行进行混沌工程故障演练平台建设的时候,就要思考是选择自研故障注入工具,还是直接引用开源的故障注入工具。如果引用开源的故障注入工具,引入哪款开源工具。 由于工行目前正在进行 IT 架构转型转型,因此目前存在多种架构并存的情况、比如 IBM 大机 COBOL+DB2 体系,IOE 体系,开放平台体系等。 最终,混沌工程故障注入介质将会安装在这些基础设施上实施各类的故障。 在基础实施层之上,基于 ChaosBlade 进行二次开发的混沌工具故障注入介质。

    1.2K21发布于 2021-06-08
  • 来自专栏运维之路

    3.3.2 混沌工程:提升未知故障下应急管理能力

    2、他山之石 混沌工程来自于Netflix,大概由来(摘自互联网)如下: 2008年, Netflix主数据库停机三天, 导致DVD租赁业务中断,多个国家的大量用户受此影响。 从公开信息看,国内的混沌工程实践比较早的是阿里,阿里的团队分享了一些混沌工程的实践经验,开源了故障注入的代码,阿里云还有一个故障演练的应用(虽然我认为混沌工程与演练是有区别的)。 核心/基本功能异常风险:从功能角度进行故障注入,挖掘系统核心或基本功能,发现依赖影响,评估应急方案。 (2)依赖环境 上下游链路风险:通过故障注入,发现上下游系统影响,梳理影响链路。 基础设施风险:通过基础设施故障注入,查看上层应用的影响。 2)应急处置能力 (1)应急能力:通过实战型的故障,发现相关人员对问题的应急能力,以及问题上报、处理流程是否合理,以战养战。 我尝试抽象下我理解混沌工程工具需要具备的主要功能: (1)实验计划管理 模板管理 流水线编排 演练方案设计 审批流程(技术方案评审) (2)自动化执行 执行控制与风险管控 故障注入工具 应急恢复工具

    1.8K41发布于 2021-04-26
  • 来自专栏程序员吾真本

    以线上事故驱动混沌工程更能展现价值

    与运维团队一起实践了近一年的混沌工程后,获得了以下启发: 混沌工程的价值,就是要提升应对云生产环境线上事故的时效性和有效性 混沌工程实验与故障注入测试相辅相成,在证实稳态假说后,前者可以转化为后者 稳态行为假说 说到了测试,那么混沌工程实验与故障注入测试的区别是什么? 混沌工程实验与故障注入测试相辅相成 混沌工程实验是要证实或证伪复杂云系统在故障注入后的稳态假说是否成立,并研究其间系统的运行模式、未知的失效模式以及监控告警的有效性,以便增强系统稳定性设计。 一个好的稳态假说,具备3个特点:1)全局性;2)用户价值性;3)可证实性。 混沌工程演练主要关注系统在故障演练期间以下稳态指标:1)系统业务指标:系统交易错误率统计;2)系统性能指标:系统交易TPS和响应时长;3)系统资源指标:系统服务器CPU、内存、磁盘IO以及网络资源指标变化情况

    1K21编辑于 2022-09-26
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo

    确定演练目标和范围:首先确定演练实例范围、希望演练的故障场景,以及各场景下期望达到的效果; 2. 接入层负载均衡容灾能力 2. 专线网络容灾能力 3. 逻辑层虚拟机、容器集群容灾能力 4. 数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 挑战2: 演练涉及对象实例多 本次演练为了模拟真实单可用区出现故障的场景,需要一次性完成最多数百台实例的故障注入,操作难度大。 解决方案:混沌演练平台支持多实例并发故障注入,能够真实有效地模拟可用区级别的故障场景,极大提高了故障演练整体效率。

    1.6K152编辑于 2024-03-13
  • 来自专栏butterfly100

    混沌工程:通过试错的方法来提升稳定性

    什么是混沌工程? 2. 混沌工程的实践原则 3. 混沌工程的好处 4. 基于上述原则如何落地? 4.1 故障注入能力 4.2 平台化建设 4.3 应用推广 5. 就像打疫苗可以预防疾病一样,通过混沌工程来提升系统的免疫力。 2. 以下是两个 star 较多、开源社区较为活跃的混沌工程项目。故障注入都做到了开箱即用、业务无感知,不需要业务配合写一些混沌工程相关的代码,也不需要更改系统的部署逻辑。 4.2 平台化建设 基于故障注入的能力,将混沌实验的流程平台化,让用户更方便的使用。如下图: ? (1)平台产品层 基于上文「3. 2、实施混沌工程,需要定义一个清晰可衡量的目标 混沌工程的业务价值并不适合用过程指标来衡量,比如:模拟了多少种实验场景、发起多少次实验等等。

    1.7K41发布于 2021-07-16
  • 来自专栏程序员吾真本

    混沌工程和软件系统稳定性实践在技术大会上没啥可讲的?

    具体来说,根据我在之前所参与的相关咨询项目中的观察,大部分企业实践混沌工程,主要集中在两个方面。第一,构建工具平台。包括工具平台的建设过程,以及相关的系统架构。第二,故障注入实验。 如果是甲方购买了乙方的虚拟机和容器平台,然后再在上面做相关的故障注入实验,本质上是甲方再次花钱为乙方做回归测试。企业一旦在上面两个方面开展混沌工程应用工作,过程就相对固化下来。 1 企业各个角色,如业务人员、开发人员、测试人员、运维人员、平台团队,在混沌工程应用中的协作机制是什么样的?2 你们用了什么机制,保障所注入的故障能反映多样化的生产环境的现实世界的动荡情况? 2 你们所实践的混沌工程应用,与传统的测试团队的软件测试,以及与运维部门的传统故障演练,有什么区别?差异化优势在哪里?3 如何保障故障注入后的最小化爆炸半径? 4 你们所开展的故障注入实验,是否主要针对基础设施层或容器平台层?是否有针对应用服务层做故障注入实验?

    49730编辑于 2023-07-22
  • 来自专栏程序员吾真本

    混沌工程和软件系统稳定性实践在技术大会上没啥可讲的?

    包括故障库、故障注入编排和故障注入演练。其中故障库中的原子故障,主要是针对基础设施层和容器平台层的虚拟机、容器、pod和node。 如果是甲方购买了乙方的虚拟机和容器平台,然后再在上面做相关的故障注入实验,本质上是甲方再次花钱为乙方做回归测试。 企业一旦在上面两个方面开展混沌工程应用工作,过程就相对固化下来。 1 企业各个角色,如业务人员、开发人员、测试人员、运维人员、平台团队,在混沌工程应用中的协作机制是什么样的? 2 你们用了什么机制,保障所注入的故障能反映多样化的生产环境的现实世界的动荡情况? 2 你们所实践的混沌工程应用,与传统的测试团队的软件测试,以及与运维部门的传统故障演练,有什么区别?差异化优势在哪里? 3 如何保障故障注入后的最小化爆炸半径? 4 你们所开展的故障注入实验,是否主要针对基础设施层或容器平台层?是否有针对应用服务层做故障注入实验?

    28120编辑于 2023-07-24
  • 来自专栏程序员吾真本

    故障创建与编排更胜一筹的K8S混沌工程开源平台Litmus

    图片创建者MayaData一句话介绍LitmusChaos 是一个在故障创建与编排方面更胜一筹的K8S混沌工程开源平台,如提供故障注入实验库 ChaosHub,使团队能够以受控方式,引入故障注入实验来识别基础设施中的弱点和潜在停机隐患 亚马逊云kube-aws实验,包括ec2-terminate-by-tag、ec2-terminate-by-id、ebs-loss-by-tag、ebs-loss-by-id、aws-az-chaos 混沌工程可观测性可连接数据源(来自任何 Chaos Delegate)并监控故障注入场景。能可视化故障注入场景运行的统计数据和并做数据聚合。可比较两个或多个故障注入场景的观测数据。 这对于刚刚接触混沌工程的团队来说,是一项挑战。 你所阅读的文章,来自“吾真本说混沌工程”知乎专栏。

    95070编辑于 2023-08-15
  • 来自专栏腾讯云智能顾问

    腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇

    上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——上篇 我们讨论架构设计和部署,接下来的内容是关于相应故障演练验证的实践 故障注入主要通过腾讯云混沌演练平台实现,腾讯云有对外服务的版本 ,可以前往混沌演练平台进行了解。 通过腾讯云ecdn管理后台编辑主源,配置一个不可访问,一个正常服务: 接下来观察页面范围是否正常,且分析各个部署的请求日志 全部ECDN主源VIP不可访问 通过腾讯云ecdn管理后台编辑主源,配置的2个主 : 逻辑层故障演练 主源逻辑层地域所有POD异常 通过腾讯云混沌演练平台pod Failed注入 主源逻辑层单可用区所有POD异常 通过腾讯云混沌演练平台pod Failed注入 逻辑层地域所有POD异常和单可用区所有 POD异常2故障注入后的请求示意图,都是主源VIP返回异常码后,进行备源重试: 主源逻辑层单可用区内部分POD异常 通过腾讯云混沌演练平台pod Failed注入,包括前后端不同场景 故障注入后的K8s

    1.2K81编辑于 2024-03-11
  • 来自专栏测试开发技术

    推荐一款开源混沌工程测试平台:Chaos Mesh

    1、Chaos Mesh 介绍 Chaos Mesh是一个开源的混沌工程平台,旨在帮助用户在生产环境中测试、验证和优化其应用程序的可靠性和稳定性。 通过引入故障注入混沌工程原则,Chaos Mesh可以模拟各种故障场景,如网络延迟、节点故障、磁盘故障等,以帮助用户发现和解决系统中的潜在问题。 项目地址: https://gitee.com/mirrors/Chaos-Mesh https://github.com/pingcap/chaos-mesh 2、Chaos Mesh 特性: 多样化的故障注入 2、部署 Chaos Mesh:可以使用 Helm 进行部署,执行以下命令: helm repo add chaos-mesh https://charts.chaos-mesh.org helm install 2、运行实验:使用 Chaos Mesh CLI 启动创建的网络延迟实验,实时观察目标应用程序在网络延迟情况下的表现。

    1.1K11编辑于 2024-08-27
  • 来自专栏k8s技术圈

    蚂蚁开源的云原生混沌工程平台 - ChaosMeta

    ,还是只想要底层的远程注入、编排调度等平台能力,甚至是只想要单机故障注入能力,或者对云上/云下的目标进行管理以及注入故障,都有相应的部署方案可以满足 丰富的故障注入能力,云原生混沌工程 由于蚂蚁集团对攻防演练的高度重视 平台功能强大,支撑完整“混沌工程生命周期”,面向自动化 ChaosMeta 覆盖准入检测、流量注入、故障注入、故障度量、故障恢复、恢复度量等多个阶段的平台能力,作为“自动化混沌工程”的技术基础。 故障度量是对故障注入效果的有效性度量,而恢复度量是对防御平台恢复能力的有效性度量。度量能力是实现混沌工程自动化以及智能化的关键能力。 /chaosmetad-demo:v0.3.9 /bin/bash # 启动测试服务 cd /tmp && python -m SimpleHTTPServer 8080 > server.log 2> &1 & curl 127.0.0.1:8080 # 创建一个实验,给lo网卡注入2s网络延迟,10分钟后自动恢复 chaosmetad inject network delay -i lo -l 2s

    2.3K10编辑于 2023-11-27
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练】精细演练,稳定云端——腾讯云助阵金蝶云,守护小微业务稳定高可用

    改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。 检验关键服务的跨可用区容灾能力,如架构无单点,具备健康检查、负载均衡等能力; 2. 检验业务监控覆盖度和有效性,如基础监控、业务指标监控的覆盖度; 3. 事中演练: ○ 本次演练全程借助云顾问·混沌演练平台进行故障注入,演练开始后,负责人逐个点击执行故障注入和故障恢复; ○ 故障注入后由金蝶各业务负责人观察故障对业务的具体影响,监控数据&告警是否正常触达等 执行故障注入 云顾问·混沌演练平台提供可视化视图,用户在演练过程中可以实时查看故障动作执行状态(成功/失败/执行中)和注入效果: 观测监控指标 在故障注入过程中,通过平台集成的监控面板,对演练对象实例监控指标进行观测 故障注入后部分服务受到影响,收到系统告警提示,故障恢复后告警停止等。

    72510编辑于 2024-03-12
领券