首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏高可用

    混沌工程工具:一个混沌工程设计的例子(9)

    背景 前面几篇文章,从两个开源程序chaos-mesh、chaosblade入手,分析混沌工程的原理;然后讲混沌工程实施的完整过程及混沌原则梳理,本文主要是记录之前的知识,用一个例子说明混沌工程是怎么设计的 混沌工程工具系列传送门: 1、 混沌演练工具Chaos-mesh与Chaosblade技术实现与原理分析(1)-腾讯云开发者社区-腾讯云 2混沌工程工具:chaos-mesh注入项原理分析( 2)-腾讯云开发者社区-腾讯云 3、 混沌工程工具:chaosblade在服务器上注入项原理分析(3)-腾讯云开发者社区-腾讯云 4、 混沌工程工具:业务代码注入原理(4)-腾讯云开发者社区-腾讯云 :混沌工程定位及原则梳理(8)-腾讯云开发者社区-腾讯云 8、 混沌工程工具:一个混沌工程设计的例子(9)-腾讯云开发者社区-腾讯云 初版设计 设计原则 我们面对的系统十分庞大,微服务是数以千计,底层硬件也是数以千计 讨论包括: 1、 讨论选择哪个实验(根据 混沌工程原则 -- 实验选择) 2、 该实验的业务KPI及资源特征(构建具有可证伪性的假说) 3、 如何实现实验(方法简单、可长期执行) 4、

    1.1K30编辑于 2023-10-10
  • 来自专栏超级架构师

    混沌工程】混沌工程原理

    我们称之为混沌工程。 实践中的混乱 为了专门解决大规模分布式系统的不确定性,混沌工程可以被认为是促进实验以发现系统弱点。 改变现实世界的事件 混沌变量反映了现实世界的事件。通过潜在影响或估计频率对事件进行优先级排序。 混沌工程将自动化构建到系统中,以驱动编排和分析。 最小化爆炸半径 在生产中进行试验有可能导致不必要的客户痛苦。 虽然必须考虑一些短期的负面影响,但混沌工程师有责任和义务确保将实验的后果最小化并加以控制。 混沌工程是一种强大的实践,它已经改变了世界上一些最大规模运营中软件的设计和工程方式。 混沌原则为大规模快速创新提供信心,并为客户提供他们应得的高质量体验。 谢谢大家关注,转发,点赞和点在看。

    1.1K20编辑于 2022-09-28
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌混沌工程GameDay

    1 什么是混沌GameDay? GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。 混沌GameDay是一个有计划、受控、安全、可观测的活动,而不是“混乱”的活动。 混沌GameDay的最终目的是按照一定的规划,有序地对目标系统进行混沌演练,收集演练实验证据,以此来验证混沌工程稳态假说。 2 GameDay的准备 只要能对目标系统进行有计划的混沌演练的活动,并能收集到相关证据,都可以称为一次成功的混沌GameDay。您也可以按照如下步骤进行游戏的准备工作。 腾讯云的混沌工程 腾讯云混沌演练平台(CFG)也正是基于上述背景而诞生,汇集各行业成功案例和最佳实践,提供宝贵经验,提供模拟IaaS、PaaS、SaaS近百种故障注入场景。

    1.2K100编辑于 2024-03-15
  • 来自专栏超级架构师

    混沌工程】什么是混沌工程?

    什么是混沌工程? 混沌工程让您可以将您认为会发生的事情与系统中实际发生的事情进行比较。 您实际上是“故意破坏”以学习如何构建更具弹性的系统。 最终,混沌工程的目标是增强我们系统的稳定性和弹性。 混沌与可靠性工程技术作为构建可靠应用程序的基本学科正迅速获得关注。 在过去的几年里,许多组织——无论大小——都接受了混沌工程。 图片 混沌工程如何帮助测试发展? 混沌工程入门 我们首先设计了一个小型混沌实验,其规模远小于我们认为可能造成麻烦的规模。接下来,我们限制爆炸半径和真正的潜在危害,以便在进行混沌测试时保证系统和数据的安全。 我们在 us-east-2 中的 Amazon S3 存储桶刚刚坏了?”不用担心,我们已经预料到了这一点,并且从客户的角度来看,我们的系统仍然表现良好。

    1.3K30编辑于 2022-11-01
  • 来自专栏超级架构师

    混沌工程】2022 混沌工程状态

    我们从首份混沌工程状态报告中看到了同样的相似之处:表现最好的混沌工程团队拥有四个 9 的可用性,MTTR 不到一小时。 CEO 12% CFO or VP of Finance 10.6% CTO 36.1% VP 28.3% Managers 51.8% Ops 53.8% Developers 54.1% Other 2% Chaos Engineering today 混沌工程正变得越来越流行和改进:60% 的受访者表示他们已经运行过混沌工程攻击。 Over 25 years old 25.8% 10 to 25 years old 32.9% 2 to 10 years old 27.3% Less than 2 years old 14% 贵公司属于哪个行业 Amazon Web Services 38% Google Cloud Platform 12% Microsoft Azure 12% Oracle 2% Private Cloud (On Premises

    1.1K20编辑于 2022-11-01
  • 来自专栏超级架构师

    混沌工程】故意破坏和混沌工程

    从 2010 年 2 月起,我就在银行工作了……嗯。 Jason:那么,当你第一次加入银行时,你并不是开发者的拥护者? 亚伦:对。因此,我自 2019 年以来一直担任现在的职务。

    78330编辑于 2022-11-01
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌混沌工程理念:起源

    混沌工程的诞生 从客观来看,类似的问题我们有的可以提前预知到,有的确实完全无法避免(比如自然灾害导致机房不可用等因素)。 在这方面,Netflix首先提出了Chaos Monkey(在系统中捣乱的”混沌猴子“)来对目标系统进行随机的宕机测试,评估系统在可用性,容错性等方面的韧性边界,“混沌工程”由此诞生。 如何开展混沌工程实验 腾讯云混沌演练平台(CFG),为您提供安全、易用的的故障注入服务,助您打造稳固如磐石的云架构系统。 ,轻松上手构建一个复杂场景的故障演练任务; 更值得一提的是,腾讯云混沌演练平台还拥有行业演练经验库。 马上免费试用腾讯云混沌演练平台,体验一场真实的混沌工程实验吧! 点击链接,立即了解更多关于腾讯云混沌演练平台的信息,一起开启稳定性建设的新篇章!

    96441编辑于 2024-03-15
  • 来自专栏hotqin888的专栏

    工程设计文档服务EngineerCMS

    工程设计单位或个人的设计文件分类有其特点,利用engineercms的分类目录可以很好地管理资料。多单位,多人,多工程都可以适应。

    96630发布于 2018-10-15
  • 来自专栏架构之美

    混沌工程

    混沌工程简介 混沌工程师一门新兴的技术学科,它的初衷是通过实验性的方法,让人们建立复杂分布式系统能够在生产中抵御事件能力的信息。 混沌工程,重在实验,不同于测试。混沌工程,是发现新信息的实践过程;测试,只能让我们通过最终呈现得知这个结果是否我们预期的,要么正确,要么错误。 我们从混沌工程试验的基本设计方法到高级原则来深入了解它。在真正实施混沌工程的大规模系统上,遵循的原则越全面,你面对系统弹性的信心就越足。 高级原则,后面会用到,具体如下: 1 原则一:建立稳定状态的假设 2 原则二:用多样的现实世界事件做验证 3 原则三:在生产环境中进行实验 4 原则四:自动化实验以持续运行 5 原则五:最小爆炸半径 01 另外,在进行任何混沌工程实验之前,都应该有一个自动化的能够立即终止实验的方式来将潜在的影响范围最小化,主要有两个策略: 1. 允许快速终止实验 2.

    1.8K40发布于 2020-01-15
  • 来自专栏超级架构师

    混沌工程】Chaos Mesh:Kubernetes 的混沌工程平台

    Kubernetes 的混沌工程平台。 Chaos Mesh 是云原生计算基金会 (CNCF) 托管的项目。它是一个云原生混沌工程平台,可在 Kubernetes 环境中编排混沌。 在当前阶段,它具有以下组件: Chaos Operator:混沌编排的核心组件。完全开源。 Chaos Dashboard:用于管理、设计、监控混沌实验的 Web UI。 请参阅以下演示视频,快速了解 Chaos Mesh: Chaos Operator Chaos Operator 以可管理的方式将混沌注入应用程序和 Kubernetes 基础设施,为混沌实验和自动编排提供简单的自定义定义 Chaos Operator 使用 CustomResourceDefinition (CRD) 来定义混沌对象。 由于涉及到云原生部署服务,字节跳动集成了Chaos Mesh作为底层故障注入引擎,是对字节跳动混沌工程平台的重要补充。 To be added.

    2.1K20编辑于 2022-09-28
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】 跨 AZ 容灾混沌演练

    进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。 腾讯云基于该背景,推出了混沌演练平台,助力用户进行云上稳定性治理,并结合行业经验,形成了跨 AZ 的容灾演练模版,用户可以基于该模版一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 提高应急响应能力:通过定期进行跨 AZ 容灾和混沌演练,提高企业和组织的应急响应能力,确保在发生问题时能够迅速采取恢复措施。 如何快速进行跨 AZ 容灾混沌演练? 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。 2. 选择对应的云上实例资源或添加其他故障场景,即可开始跨可用区容灾混沌演练。

    80610编辑于 2024-03-15
  • 来自专栏老张的求知思考世界

    混沌工程-初识

    软件可用性面临两大挑战: 1)自身复杂度激增; 2)开发者引入复杂性的同时对风险的低估和忽视; 方法:通过一系列可控实验和执行实验原则,揭示出系统中随时发生的各类事件是如何逐步导致系统整体不可用的 主要因素: 1)系统架构演进:服务集群→分布式→微服务→容器化(K8S&docker)→上云; 2)版本迭代增速:CICD、敏捷、devops、ABtest; 3)用户需求变更:复杂化、多样化、快速化、 2混沌工程解决什么问题? 生产环境下,分布式系统在面对失控条件时是否具备较强的“可观测性”和故障恢复能力。 3、开展混沌工程要考虑的维度有哪些? 1)建立稳定状态的假设(清晰可衡量的指标) 2)用多样的生产事件做验证(多样性降低误差) 3)在生产环境做验证(真实场景) 4)自动化开展实验(持续运行) 5)控制最小化爆炸半径(影响范围) 4、Netflix 2)定义一个清晰可度量的目标(定义目标) 前期:对历史故障的复现率以及解决率,确保故障改进的有效性; 中期:监控发现率,验证故障发现能力的全面性和监控的完备程度; 后期:故障的“发现-定位-

    1K20发布于 2020-02-17
  • 来自专栏软件测试架构师俱乐部

    混沌工程-初识

    软件可用性面临两大挑战: 1)自身复杂度激增; 2)开发者引入复杂性的同时对风险的低估和忽视; 方法:通过一系列可控实验和执行实验原则,揭示出系统中随时发生的各类事件是如何逐步导致系统整体不可用的 主要因素: 1)系统架构演进:服务集群→分布式→微服务→容器化(K8S&docker)→上云; 2)版本迭代增速:CICD、敏捷、devops、ABtest; 3)用户需求变更:复杂化、多样化、快速化、 2混沌工程解决什么问题? 生产环境下,分布式系统在面对失控条件时是否具备较强的“可观测性”和故障恢复能力。 3、开展混沌工程要考虑的维度有哪些? 1)建立稳定状态的假设(清晰可衡量的指标) 2)用多样的生产事件做验证(多样性降低误差) 3)在生产环境做验证(真实场景) 4)自动化开展实验(持续运行) 5)控制最小化爆炸半径(影响范围) 4、Netflix 2)定义一个清晰可度量的目标(定义目标) 前期:对历史故障的复现率以及解决率,确保故障改进的有效性; 中期:监控发现率,验证故障发现能力的全面性和监控的完备程度; 后期:故障的“发现-定位-

    1.1K20发布于 2020-02-19
  • 来自专栏云计算与大数据

    ChaosBlade:混沌工程

    2、实验模型的介绍 此实验模型详细描述如下: Scope: 实验实施范围,指具体实施实验的机器、集群及其资源等。 Target: 实验靶点,指实验发生的组件。 2 混沌工程实验工具:ChaosBlade 阿里巴巴内部从最早引入混沌工程解决微服务的依赖问题,到业务服务、云服务稳态验证,进一步升级到公共云、专有云的业务连续性保障,以及在验证云原生系统的稳定性等方面积累了比较丰富的场景和实践经验 :比如节点上 CPU、内存、网络、磁盘、进程实验场景,Pod 网络和 Pod 本身实验场景如杀 Pod,容器的实验场景如上述的 Docker 容器实验场景 云资源:比如阿里云 ECS 宕机等实验场景 22、平台架构设计 通过控制台页面可实现 chaosblade、litmuschaos 等已托管工具自动化部署,按照社区的建立的混沌实验模型统一实验场景,根据主机、Kubernetes、应用来划分目标资源 2、chaosblade-box 后续会将阿里云故障演练平台(可信云混沌工程平台先进型认证)核心功能开源,与现有的混沌工程平台进行融合,实现更多能力的开放。

    1.6K30发布于 2021-08-26
  • 来自专栏Python自动化测试

    混沌工程实践

    所以针对每个系统而言都是存在稳定状态和不稳定状态,很说明确的说混沌与不确定性是一回事。 所以首先需要明确的是混沌工程的思想它是科学实验的方法论,所有的一切都是在系统实验的基础上来寻求系统的平衡性。 所以在公司如果需要开展混沌工程,需要遵守混沌工程的五大原则,这些原则具体为: 首先要定义系统的边界 引入现实世界的真实案例事件。比如数据库超时,内存泄露,网络故障等 在生产环境中运行。 混沌实验毕竟是对系统造成冲击的,而且是在生产环境中进行,所以在实际开展的过程中,要选择影响范围小的,不能因为开展实验而导致系统出现故障,从而给系统带来一些破坏的行为。 混沌实验最好是持续的自动化。 混沌实验有非常成熟的工具,比如阿里巴巴开源的ChaosBlade,在前面的文章中详细地介绍了混沌实验模拟网络层故障,系统CPU,内存,OOM等案例,这里就不再重复。

    77220编辑于 2022-12-03
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】服务宕机灾难预防手段:混沌工程

    答案是有的——混沌工程。 为何需要进行宕机混沌演练? 对于互联网行业从业者而言,服务中断无疑并不陌生。其影响极为重大且广泛,涉及日常生产生活的诸多方面。 腾讯云混沌演练平台(CFG),提供对腾讯云CVM进行开关机混沌演练,可模拟服务器宕机故障场景。 而主动地引入可控的服务器宕机故障,进行混沌演练,便是验证服务容灾恢复能力的高效方案。 故障演习原理 执行故障:调用腾讯云CVM开放API,发出开关机请求。 快速开始 可前往腾讯云混沌演练平台,选择CVM 关机动作进行CVM主机宕机演习。 CVM关机

    63210编辑于 2024-03-15
  • 来自专栏超级架构师

    混沌工程】什么是混沌工程? 介绍、定义及更多

    混沌工程和混沌实验带来了可控的混沌,因此我们可以摆脱这些类型的事件。 什么是混沌工程? 混沌工程是故意将故障注入系统以衡量弹性的科学。 由于可能会影响广泛的基础设施,混沌工程的用户和从业者几乎可以是支持应用程序/基础设施堆栈的任何人。 谁使用混沌工程? 由于混沌工程涉及广泛的技术和决策,混沌工程实验可能有多个利益相关者。 这正是混沌工程正在解决的问题。混沌工程实验的结果随后被用于创建一个更具弹性的系统。 混沌工程原理 《混沌工程原理》是一篇出色的宣言,描述了混沌工程的主要目标和原则。 在实施混沌工程实验时,实施混沌工程的原则会导致一些设计注意事项和最佳实践。 混沌工程最佳实践 在实施混沌工程或任何测试时,有三个支柱。 今天,不乏工具和平台来帮助您实现混沌工程目标。 混沌工程工具 围绕混沌工程有很多进步和工具。很棒的资源列表是 Awesome Chaos Engineering 列表。

    5K21编辑于 2022-09-26
  • 来自专栏高可用

    混沌工程工具:混沌工程定位及原则梳理(8)

    图片混沌工程工具系列传送门: 1、 混沌工程工具:Chaos-mesh与Chaosblade技术实现与原理分析(1)-腾讯云开发者社区-腾讯云 2混沌工程工具:chaos-mesh注入项原理分析 (2)-腾讯云开发者社区-腾讯云 3、 混沌工程工具:chaosblade在服务器上注入项原理分析(3)-腾讯云开发者社区-腾讯云 4、 混沌工程工具:业务代码注入原理(4)-腾讯云开发者社区-腾讯云 :混沌工程定位及原则梳理(8)-腾讯云开发者社区-腾讯云 8、 混沌工程工具:一个混沌工程设计的例子(9)-腾讯云开发者社区-腾讯云混沌工程原则解读及选择原则混沌工程高级原则,是国外混沌工程专家一起整理的实践指南 这就是我们前面分析的混沌源码要解决的问题 1、 自动化创建实验,可以借助IDIF 2、 自动化执行实验,可以借助开源工具。原则四:在生产环境中执行实验在哪个环境进行实验,就可以获得哪个环境的信心。 2、 子网先于全网演练环境非生产环境优于生产环境演练模式1、 有剧本的演练先于无剧本随机演练 2、 通过程序固化故障注入方式稳态指标突破稳态指标立即中止演练终止通道可随时终止演练总结本文梳理了混沌工程的定位及混沌原则解读

    1.1K11编辑于 2023-10-10
  • 来自专栏高可用

    混沌工程工具:混沌工程实施过程及持久价值(7)

    混沌工程工具系列传送门: 1、 混沌工程工具:Chaos-mesh与Chaosblade技术实现与原理分析(1) 2混沌工程工具:chaos-mesh注入项原理分析(2) 3、 混沌工程工具 :混沌工程实施过程及持久价值(7) 7、 混沌工程工具:混沌工程定位及原则梳理(8) 8、 混沌工程工具:一个混沌工程设计的例子(9) 混沌工程实施过程 实施过程 一次完整的实验包括实施前准备、 实施中管控和实施后复盘提炼,下面是我认为的要点及阶段的目标 阶段 要点 目标 实施前 1、 完成实验点高可用建设 2、 完成实验方案中实验准备工作:稳态可观测性 4、 人员协调,落实演练主持人员、执行人员、记录人员 完成实施实验的所有前置条件 实施中 1、 记录好开始时间、稳态指标、结束时间等 2、 4、 记录好对有限条件的冲击,比如实验是否对金融监管造成冲击 可详细还原实验过程 实施后 1、 提炼过程中发现的系统问题,实验结果,输出商业价值 2

    1.1K41编辑于 2023-10-10
  • 来自专栏京东技术

    混沌演练实践(一)

    Tech 导读 本文从整体介绍了混沌演练的实践流程,读者可以通过本文了解到混沌实践的典型演练场景、重要考核指标以及风险控制方案等。 由此我的Runner探索之旅开始了 1.1 什么是混沌工程 g 混沌工程是通过主动制造故障场景并根据系统在各种压力下的行为表现确定优化策略的一种系统稳定性保障手段,简单说就是通过主动注入故障的方式 1.3 混沌演练的价值 应用混沌演练可以对系统抵抗扰动并保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障系统更好地抵御生产环境中的失控条件,提升整体稳定性。 : 故障排查:在演练过程中,蓝方通过报警信息,先对模拟故障的实例机器,进行排查; 恢复方案:演练中发现问题要及时恢复,演练后对模拟故障的实例机器进行重启恢复,确保机器正常运行,各项性能指标恢复; 图2 应用服务器响应正常,可用率恢复; 图5 演练应用告警通知 2.2.4 复盘阶段 通过本次演练,发现两个待优化的点: 1.CPU使用负载的演练场景,发现了监控告警邮件延迟,建议增加电话和咚咚报警策略; 2.

    87920编辑于 2023-09-21
领券