首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云智能顾问

    顾问-混沌演练】迎难而上,腾讯混沌工程实践之道揭秘

    为此,自2021年起,团队把面向腾讯内部几百款产品在演练实施过程中的经验和方法进行产品化,推出混沌工程产品腾讯混沌演练平台,力求为客户提供故障注入能力和生命周期管理能力等实质性服务。 这些成果不断激励着我们提升混沌工程能力,共建稳定性治理体系。 五、结合专家服务,建设高可用架构容灾 随着产品化的发展,我们也将混沌工程能力扩展至专家服务领域。 结合腾讯海量业务运维经验及腾讯产品所具备的容灾能力,高可用服务专家团队致力于为公有客户提供高可用容灾建设方案,从方案设计、评审、实施以及混沌演练验收以达成客户在容灾RTO、RPO的可量化目标。 以下为本次会议的摘要内容: 圆桌会议——时代的稳定性挑战|混沌工程|SRE 来自腾讯高可用专家团队的周永飞参与“稳保行动·深圳站沙龙”下午场的圆桌会议,共同探讨了时代服务商应用的稳定性挑战, 六、腾讯混沌演练平台 腾讯混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患

    2K110编辑于 2024-03-13
  • 来自专栏腾讯云混沌工程团队

    顾问-混沌服务宕机灾难预防手段:混沌工程

    提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。 2022年5月11日,Salesforce服务中断5小时。 答案是有的——混沌工程。 为何需要进行宕机混沌演练? 对于互联网行业从业者而言,服务中断无疑并不陌生。其影响极为重大且广泛,涉及日常生产生活的诸多方面。 腾讯混沌演练平台(CFG),提供对腾讯CVM进行开关机混沌演练,可模拟服务器宕机故障场景。 而主动地引入可控的服务器宕机故障,进行混沌演练,便是验证服务容灾恢复能力的高效方案。 故障演习原理 执行故障:调用腾讯CVM开放API,发出开关机请求。 状态更新:虚拟机状态发生变化后,虚拟化平台管理组件通知腾讯后端服务。后端服务将更新CVM的状态信息,并将结果返回。 快速开始 可前往腾讯混沌演练平台,选择CVM 关机动作进行CVM主机宕机演习。

    63210编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    顾问-混沌混沌工程GameDay

    1 什么是混沌GameDay? GameDay在混沌工程中可以理解为一次有计划的演练实践活动,可以持续一天,也可以持续几个小时,也可以持续几天,持续时间根据具体的目标而定。 混沌GameDay的最终目的是按照一定的规划,有序地对目标系统进行混沌演练,收集演练实验证据,以此来验证混沌工程稳态假说。 2 GameDay的准备 只要能对目标系统进行有计划的混沌演练的活动,并能收集到相关证据,都可以称为一次成功的混沌GameDay。您也可以按照如下步骤进行游戏的准备工作。 2.1 选择稳态假说 一次成功的GameDay必须要有至少一个明确的验证目标,即混沌工程稳态假说。一个稳态假说往往包含但不限于以下几点内容。 腾讯混沌工程 腾讯混沌演练平台(CFG)也正是基于上述背景而诞生,汇集各行业成功案例和最佳实践,提供宝贵经验,提供模拟IaaS、PaaS、SaaS近百种故障注入场景。

    1.2K100编辑于 2024-03-15
  • 来自专栏腾讯云混沌工程团队

    顾问-混沌混沌工程理念:起源

    如何开展混沌工程实验 腾讯混沌演练平台(CFG),为您提供安全、易用的的故障注入服务,助您打造稳固如磐石的架构系统。 无论您是独立开发者、运维工程师还是安全专家腾讯混沌演练平台都是您不可或缺的利器: 我们拥有丰富的故障动作库,能够模拟IaaS、PaaS、SaaS近百种故障注入场景,可视化的动作编排,让小白也能快速入门 ,轻松上手构建一个复杂场景的故障演练任务; 更值得一提的是,腾讯混沌演练平台还拥有行业演练经验库。 无论您是初学者还是经验丰富的专家,我们都能满足您的需求。 你了解你的服务的稳定性边界吗?还在为上稳定性而忧虑吗? 马上免费试用腾讯混沌演练平台,体验一场真实的混沌工程实验吧! 点击链接,立即了解更多关于腾讯混沌演练平台的信息,一起开启稳定性建设的新篇章!

    96341编辑于 2024-03-15
  • 来自专栏FunTester

    混沌工程服务依赖治理

    引言 在微服务架构和原生环境飞速发展的今天,应用的复杂度已经不是简单线性增长,而是呈现出指数级膨胀。 本文将深入探讨如何将混沌工程的方法论有效融入服务依赖治理的实践,打造更加稳定、可靠且具备高韧性的系统。核心问题在于:如何通过混沌工程的主动式故障注入,精准发现并解决服务依赖中的潜在风险? 交叉点:殊途同归 服务依赖治理和混沌工程并非泾渭分明的两个领域,而是相辅相成、互相补充的体系,最终目标都是提升系统的稳定性和韧性。 从被动防御到主动进化 将服务依赖治理与混沌工程深度融合,不是锦上添花,而是应对现代复杂系统挑战的必然选择。 、自愈的能力 在这个“计算无处不在,微服务遍地开花”的时代,我们不能再被动等待故障发生,而是要主动去挑战系统的极限,提前打好“预防针”。

    38100编辑于 2025-03-27
  • 来自专栏CNCF

    Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践

    面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和原生。 如今,腾讯互娱运营活动基本上所有的服务都是跑在腾讯 TKE。受益于原生的技术红利,服务的弹性伸缩,包括服务扩容、缩容的速度非常快,几分钟时间就可以从单副本扩展到一百个副本。 腾讯游戏混沌工程团队给出的答案是:把 PingCAP 开源的 Chaos Mesh 在腾讯 TKE 落地,用以解决当前服务故障频率高、质量控制挑战大的问题。 同时,腾讯互娱现在还在使用混沌工程训练故障诊断机器人。当服务变复杂之后,故障的概率会变得更大。 腾讯互娱这边落地原生混沌工程有半年左右,事实上混沌工程已经在腾讯互娱内部几乎所有的团队都推开了。

    1.3K30发布于 2021-05-27
  • 来自专栏PingCAP的专栏

    Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践

    本文首先介绍了腾讯互娱面临的复杂的技术场景,然后介绍了腾讯互娱混沌工程团队基于 Chaos Mesh 打造的原生混沌工程平台,最后分享腾讯互娱近半年混沌工程实践取得的收益。 面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和原生。 如今,腾讯互娱运营活动基本上所有的服务都是跑在腾讯 TKE。受益于原生的技术红利,服务的弹性伸缩,包括服务扩容、缩容的速度非常快,几分钟时间就可以从单副本扩展到一百个副本。 腾讯游戏混沌工程团队给出的答案是:把 PingCAP 开源的 Chaos Mesh 在腾讯 TKE 落地,用以解决当前服务故障频率高、质量控制挑战大的问题。 腾讯互娱这边落地原生混沌工程有半年左右,事实上混沌工程已经在腾讯互娱内部几乎所有的团队都推开了。

    1.7K20发布于 2021-05-19
  • 来自专栏腾讯云大客户技术服务团队

    【万字长文】腾讯新能源汽车客户-混沌工程实战

    我们推荐了混沌工程这一利器。介绍了腾讯混沌工程专家服务后,客户当即和我们组成了联合项目,在防火墙上,实施混沌工程。 业界的这几种方式,在腾讯客户服务的场景,都不符合要求,因为既没有在短时间内帮客户解决客户的诉求,也没有体现腾讯专家的价值(如下表)。 最终结合对腾讯产品深度理解、腾讯内丰富的混沌经验、业界的先进经验,输出了《腾讯专家模式》的方法进行混沌工程建设。 各设计流派对比情况如下:图片2.2 腾讯专家模式具体思路通过全面分析系统(明确目标系统、系统弱点探查),梳理出最有价值的实验项,弥补时间窗口小的问题基于混沌工程原则设计混沌实验、Gameday设计,最小化混沌实验风险单次实验的报告复盘 、持续迭代来提升实验的长期性2.3 腾讯专家模式流程图图片----长文预警下面行文分为两部分:混沌工程设计方法论(3.混沌工程设计方法论)和基于方法论的实战(4.某新能源汽车防火墙混沌工程实战)。

    4.1K707编辑于 2023-02-24
  • 来自专栏深度学习与python

    混沌工程:让原生工程师更贴近用户

    作者 | Eran Levy 译者 | 张卫滨 策划 | 丁晓昀 原生技术的演进以及工程规模扩张的需求都在促使组织重组他们的团队,并 拥抱新的架构方式,如微服务。 这种先进的方式带来了巨大的价值,但是作为工程师,我们所编写的应用是一个更广阔的服务集合的一部分,这些服务建立在云端的某个平台之上。 作为原生工程师,还需要不断调整对所依赖的原生技术的认识和理解。除了正在使用的工具集,构建原生应用还涉及到很多不断变化的组件,比如我们所依赖的平台、所使用的数据库等等。 待命的工程师要领导事件的处理,理解高层次的业务影响并进行沟通,如果需要特定的专家才能将系统恢复至正常功能状态,工程师要确保相关的团队和服务所有者能够尽快就绪来解决问题。 随着不断推进,我们开始利用混沌工具来达到这个目的。除了通过培训能够成为更好的原生工程师之外,待命工程师们在轮班时也能够感到更加自如,并且熟悉了可用的工具,以便快速做出反应。

    38120编辑于 2023-03-29
  • 来自专栏腾讯云混沌工程团队

    顾问-混沌腾讯上容灾实践

    在2023年11月12日,刚经过双11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。 腾讯混沌工程 腾讯早在2021年就意识到混沌工程对于稳定性建设的科学意义,并在内部的各个产品以及服务中逐步开展混沌工程,成立「混沌蓝军」虚拟组织,积极的开展内部的混沌工程实践,并将沉淀的稳定性建设经验逐步开放到公有 ,推出「腾讯混沌演练平台」(后简称腾讯混沌)。 腾讯混沌异地多活容灾客户案例 上图便是一个针对数据库腾讯&用户IDC容灾混沌场景,通过引入「数据库MySQL不可用」以及「数据库Redis不可用」故障,模拟数据库单灾难场景。 腾讯混沌的故障能力 腾讯混沌团队结合多年内部稳定性建设经验,与各个产品团队通力合作,沉淀出百余种原子故障场景,并提供灵活的演练编排能力,可以轻松设计复合场景的混沌演练。

    3.8K71编辑于 2024-03-15
  • 来自专栏ThoughtWorks

    服务架构下的质量迷思——混沌工程

    Netflix开发出Chaos Monkey来对系统进行随机试验来了解系统是否具有高可用性和容错性,而由此便诞生出”混沌工程“。 ---- 什么是混沌工程混沌工程原则是什么? 不论企业是在微服务改造期还是中台战略部署期,混沌实践能够有效避免生产环境灾难,提升系统的容错率和可用性。 ---- 如何引入混沌工程? 除此之外,鉴于Netflix在服务化演进中的成功案例,我们来了解下Netflix开源的混沌工程试验框架Chaos Monkey究竟是什么? Netflix对混沌工程的成熟度从“复杂度”和“接受度”两个方面给出了定义,可以看到,混沌工程或试验不单单是方法论的引入,更是实践上的渗透。 通过小规模实践到大规模改造,混沌工程不是为了测试,更不是为了引入工具, 混沌工程会像一种文化,将扩散于范围更广的团队和组织。 ----

    97940发布于 2019-05-14
  • 来自专栏腾讯云原生团队

    重磅 | 腾讯入选信通院“混沌工程先锋实践者优秀案例

    腾讯混沌工程对于计算应用案例成功入选“2021混沌工程先锋实践者” 腾讯混沌演练平台(CFG)提供便捷、灵活、安全的混沌工程故障演习服务,除自动化故障注入外,还提供了观测指标,安全护栏等核心功能, 目前腾讯混沌演练平台已提供服务器(CVM)、Kubernetes(TKE)、Mysql(CDB)、Redis(CRS)、负载均衡(CLB)等多款产品的故障注入场景。 在稳定性四大核心领域:混沌工程、可观测性能力、全链路压测能力、应用多活能力中,腾讯参与守护者团队,持续贡献并推动国内稳定性保障工作的标准制定和全面落地。 在会上,首届“混沌工程先锋实践者”优秀案例评选结果正式揭晓,腾讯混沌工程对于计算服务应用案例顺利入选。   TKE 重磅推出全链路调度解决方案 拥抱原生,腾讯发布TCSS容器安全服务! 一个优秀的原生架构需要注意哪些地方

    1.4K40编辑于 2022-05-05
  • 来自专栏CNCF

    原生混沌工程 - 增强Kubernetes应用容错性

    出于这篇博客的目的,我想使用原生的更技术性的定义;在这里,本地被定义为一种架构,其中的组件是松散耦合的微服务,更具体地说,部署在Kubernetes和相关项目编排的容器中。 在本博客中,我想介绍一个相对较新的或较少使用的术语“原生混沌工程”,它的定义是专注于(并构建于)Kubernetes环境、应用程序、微服务和基础设施的工程实践。 考虑到这一点,我想断言原生混沌工程必然基于开源技术。 原生混沌工程框架的四个原则 开源 - 该框架必须在Apache2许可下完全开源,以鼓励更广泛的社区参与和检查。 因此,混沌工程框架应该提供一个中心枢纽或仓库,在那里开源的ChaosExperiment是共享的,并通过代码协作是可行的。 介绍Litmus Litmus是Kubernetes的原生混沌工程框架。 Litmus的其它用例用于在CI流水线和生产环境中引发混沌。 总结 随着chaos operator、chaos CRD以及chaos hub的引入,Litmus具备了原生混沌工程的所有关键要素。

    1.5K10发布于 2019-12-04
  • 来自专栏k8s技术圈

    蚂蚁开源的原生混沌工程平台 - ChaosMeta

    ChaosMeta 是蚂蚁集团开源的一款原生混沌工程平台。它凝聚了蚂蚁集团在公司级大规模红蓝攻防演练实践中多年积累的方法论、技术以及产品。 ,或者对上/下的目标进行管理以及注入故障,都有相应的部署方案可以满足 丰富的故障注入能力,原生混沌工程 由于蚂蚁集团对攻防演练的高度重视,促成了大规模高频率的演练活动,进而推动了各种各样的故障注入能力建设 并且因为蚂蚁内部有着庞大的基础设施规模,加上金融的低容错性,所以对Kubernetes、中间件等基础设施的稳定性要求非常高,因此蚂蚁混沌工程原生领域沉淀了比较丰富的故障能力以及演练经验。 平台功能强大,支撑完整“混沌工程生命周期”,面向自动化 ChaosMeta 覆盖准入检测、流量注入、故障注入、故障度量、故障恢复、恢复度量等多个阶段的平台能力,作为“自动化混沌工程”的技术基础。 度量能力是实现混沌工程自动化以及智能化的关键能力。

    2.4K10编辑于 2023-11-27
  • 来自专栏腾讯云智能顾问

    【开箱吧腾讯顾问产品发布-混沌演练

    为您开箱体验「腾讯顾问」的混沌演练功能:· 可视化架构故障演练,故障注入更直观、更安全· 丰富的100+故障场景和行业模板库,灵活编排,快速复用· 提供行业监管标准级的演练报告,复盘总结,治理价值看得见 【开箱吧腾讯顾问系列节目敬请留意本专栏发布视频。 完整体验巡检功能,请访问链接:https://console.cloud.tencent.com/advisor

    47300编辑于 2025-04-30
  • 来自专栏腾讯云安全的专栏

    腾讯发布安全专家服务,做好安全守护者

    腾讯鼎实验室如何化解这一场场危机挑战,如何做好安全守护者。 九月初,腾讯已组织安全专家,从多方面积极支持金砖国家领导人会晤期间上安全。 本次国际性事件的成功护航印证了腾讯的专业能力以及此套方案的成熟性,目前腾讯已正式对外发布安全专家服务。 什么是安全专家服务    腾讯云安全专家服务鼎实验室为主力的安全专家队伍提供安全咨询、渗透测试服务、应急响应等服务,帮助用户获得合适的安全解决方案、发现潜在安全威胁和提升用户的安全防护能力、帮助用户恢复业务 答案:All 行业没有限制,我们会帮助客户解决上前,上云中和上后的各种问题,帮助用户提供业内优秀的解决方案和经验。 腾讯云安全专家服务 能给客户带来什好处? 腾讯云安全专家服务能够协助客户避免在自身安全建设中不知道如何规划、设计、建设等问题,同时也帮助客户在安全的建设过程中减少投入与降低损失,解除客户在上前,上云中与上后的安全疑虑。

    2.9K30发布于 2018-06-12
  • 来自专栏高可用

    混沌工程工具:一个混沌工程设计的例子(9)

    混沌工程工具系列传送门: 1、 混沌演练工具Chaos-mesh与Chaosblade技术实现与原理分析(1)-腾讯开发者社区-腾讯 2、 混沌工程工具:chaos-mesh注入项原理分析( 2)-腾讯开发者社区-腾讯 3、 混沌工程工具:chaosblade在服务器上注入项原理分析(3)-腾讯开发者社区-腾讯 4、 混沌工程工具:业务代码注入原理(4)-腾讯开发者社区-腾讯 5、 混沌工程工具:Chaosblade Java业务代码注入原理(5)-腾讯开发者社区-腾讯 6、 混沌工程工具:混沌工程实施过程及持久价值(7)-腾讯开发者社区-腾讯 7、 混沌工程工具 :混沌工程定位及原则梳理(8)-腾讯开发者社区-腾讯 8、 混沌工程工具:一个混沌工程设计的例子(9)-腾讯开发者社区-腾讯 初版设计 设计原则 我们面对的系统十分庞大,微服务是数以千计,底层硬件也是数以千计 参考NF的解决方案,主要是使用FMEA 故障模式与影响分析的方法,来最终确定在哪里注入实验,能够获得最大的收益(混沌工程中称为能让团队学习到新东西) 所以第一版是采用专家设计模式: 1、 掌握待实验系统的知识

    1.1K30编辑于 2023-10-10
  • 来自专栏腾讯云混沌工程团队

    顾问-混沌演练】“练”出强大,腾讯混沌演练平台斩获三项优秀案例荣誉!

    近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。 其中,腾讯混沌演练平台凭借在腾讯自研产品稳定运营领域工作中积累的实战经验和丰富成果,斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。 以腾讯机房断电等重大故障演练实践为例,腾讯混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性: 1)产品服务稳定性:故障注入以后 混沌工程平台能力评估 除了斩获三项优秀案例外,在中国信通院“2022下半年系统稳定性保障领域评估-混沌工程平台能力评估”中,腾讯混沌演练平台(CFG)还凭借灵活、便捷、完善的故障演习功能和全面的安全防护保障能力

    1.3K50编辑于 2024-03-12
  • 来自专栏PingCAP的专栏

    深度解读 Chaos Mesh®,探索原生混沌工程的奥秘

    本文首先介绍了对混沌工程这一概念的描述,分享了混沌工程的动机和实践方式以及 Chaos Mesh 项目的发展情况。 干货十足,enjoy~本文首先介绍了对混沌工程这一概念的描述,分享了混沌工程的动机和实践方式以及 Chaos Mesh 项目的发展情况。 干货十足,enjoy~ 混沌工程概述 现在的技术潮流在向着大规模集群、超复杂的分布式系统与微服务架构演进。在演进的过程 当中,虽然给我们带来了不少的便利,同时也带来了许多的麻烦。 混沌工程历史 混沌工程已经走过了十一个年头了。从最初Netflix提出这个概念,到 16 年 Gremlin 给出了 混动工程的商业产品,试图形成混沌工程服务的商业模式。 混沌工程步骤 如果想要为你管理的项目引入混沌工程,那么可以依照以下五步的循环: [up-cddfb5433d442f94551ed06303520a92cfc.png] 不断进行这五步的循环,将对工程的稳定性产生明显的提升

    1.3K20发布于 2021-04-19
  • 来自专栏腾讯云TVP

    走进腾讯最具价值专家(TVP)

    腾讯最具价值专家,简称TVP(Tencent Cloud Valuable Professional),是腾讯颁发给技术专家的一项荣誉认证,以此感谢他们为推动计算的发展所作出的贡献。 这些技术专家来自于各个技术领域和行业,他们热衷实践、乐于分享,为技术社区的建设和推动计算的传播做出了卓越的贡献。 前奏 2018年12月15日,在北京的腾讯+社区开发者大会上,作为腾讯构建开发者生态的重要战略,TVP计划正式发布。 续章 在过去,相对于腾讯产品的百花齐放,腾讯的技术一直是在舞台幕后默默耕耘着。 如今,腾讯以技术打破边界,从幕后走向前台,怀揣更加开放、分享的态度,共同促进整个产业的技术发展。 奖品如下: 第1名:腾讯定制蓝牙音箱 第2-5名:腾讯鼠年定制公仔 第6-10名:腾讯定制公仔 领取规则:集赞完成后8月10日18:00前截图发至公众号后台,审核确认后即会统一邮寄奖品~ 点击阅读原文

    2.4K31编辑于 2023-03-30
领券