容灾设计需要进行故障切换的场景 容灾设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到 2、如果LB层发生单边资源池功能不可用,容灾切换机制是什么? 这个故障可能是由单边LB集群服务节点、单边资源池节点等因素导致,总而言之最终的结果就是单边LB集群的业务VIP服务不可用。 注意:这3个步骤,尤其是2&3两个步骤是需要一定切换时间T的(分钟级),这意味着RTO不会为零,应用会产生一定的中断,因此整个容灾架构的RTO>T,这是需要在设计时充分考虑的。 Extended RAC之类的容灾架构 。 存储层的故障切换策略 5.1 存储网关服务模式 所谓存储网关模式,我们在《企业容灾选型指南- 2 :企业容灾的数据复制技术》当中介绍过, 就是在物理存储层之上增加一层网关技术,用以形成存储资源透明抽象层
但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。 但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。
业务容灾是所有容灾中最复杂的一种场景,涉及到业务应用、中间件、数据库及底层的计算、存储、网络等资源。就云上业务容灾来讲整个容灾覆盖到IaaS、PaaS、SaaS层。 在容灾方案确认并且实施落地之后,就需要进行容灾切换演练工作。下面主要介绍下容灾切换演练的流程及具体操作细节。 image.png 一、确保备区所有相关的应用级中间件组件部署完毕。 先假设整个容灾切换场景在广州四区及六区进行,四区是主区、六区是备区。在六区搭建应用部署环境并先不启动业务。 三、执行整个业务容灾的切换步骤 1、应用入口的流量切换。在容灾切换平台上,将系统客户端的流量指向六区。 2、数据库组件切换。
检验关键服务的跨可用区容灾能力,如架构无单点,具备健康检查、负载均衡等; 2. 检验基础监控、业务指标监控的覆盖是否全面、告警是否及时等; 3. 接入层负载均衡容灾能力 2. 专线网络容灾能力 3. 逻辑层虚拟机、容器集群容灾能力 4. 数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 五、演练总结 此次moomo和腾讯云混沌演练平台的联合演练逐项验证了业务云服务容灾能力,系统的整体可用性和可靠性整体符合要求。 通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。
进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。 什么是跨 AZ 容灾以及混沌演练? 跨 AZ 容灾 它是指在一个云服务商的多个可用区之间进行业务和数据备份、恢复和迁移的能力。 提高应急响应能力:通过定期进行跨 AZ 容灾和混沌演练,提高企业和组织的应急响应能力,确保在发生问题时能够迅速采取恢复措施。 如何快速进行跨 AZ 容灾混沌演练? 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。 点击之后可选择去使用,可以直接创建对应的混沌演练任务。 2. 选择对应的云上实例资源或添加其他故障场景,即可开始跨可用区容灾混沌演练。
3台不停止服务的最低限度是2台(X/2+1),而5台的最低限度是3台。 我们应该保证,集群中最低有3台ZooKeeper是启动的。 2zk_pending_syncs 0 启动另外两台机器的Zookeeper 另外两台机器的配置文件 123456 server.1=10.1.24.110:2888:3888server.2 因此我们需要先修改3-5号机器的配置文件为3台,再关闭1-2号机器 关闭 12345 [hadoop@idc02-kafka-ds-02 bin]$ . 2zk_pending_syncs 0 此时的zk_followers为2,说明Leader已经不认1-2号机器了 关闭1-2号机器 关闭idc02-kafka-ds-00 12345 [hadoop 2zk_pending_syncs 0 没有任何影响 实验成功
数据存储容灾建设主要从数据可靠性和业务稳定性两个维度阐述。这两者有哪些区别呢? 详细架构如下: 1.元数据管理:主要负责集群管理功能,例如路由、卷元数据,集群故障探测以及恢复等管理功能 2.driver接入:主要包括client和agent两部分,client作为块设备在用户侧呈现 2.业务稳定性 从业务视角来保障稳定性,结合云平台能力,结合自身业务来进一步对业务进行加固。 https://cloud.tencent.com/document/product/362/16312 2.将CBS数据上传异地COS,调用cos分块上传接口。 2.并发上传多个分块。 3.完成整个分块上传,当使用 Upload Part 上传所有分块完成后,必须调用该 API 来完成整个文件的分块上传。
维护复杂度高:传统容灾系统的管理、监控、演练和切换操作需要大量专业人员投入。 ,测试成本高可在云端进行无影响演练三、云容灾的核心优势1. 2. 弹性与易扩展(Elastic & Scalable)企业无需提前购买和配置额外的硬件资源,而是可以在需要时动态分配云资源。当业务负载增加时,容灾环境可以根据需求自动扩展计算能力,实现无缝升级。 自动化灾备演练(Automated Disaster Recovery Testing)传统容灾演练通常需要人工干预,操作复杂且成本高昂,而云容灾可支持自动化灾备演练,不影响生产业务。 效果对比对比项传统容灾方案云容灾方案成本设备购置+维护成本高按需付费,减少闲置资源扩展能力资源固定,扩展周期长动态扩展,按需分配恢复时间4-6小时30分钟以内演练难度影响生产环境,难度大云端模拟演练,不影响生产最终
一、根据权限–查询左侧菜单列表 1.写mapper方法,查询菜单和子菜单,继承myBatisPlus(可选) 2.对应mapper语句 3.service根据用户id查询不同的菜单和权限 目前只写了用户可以看到的菜单和子菜单 在实体类加入字段,存放左侧菜单下的子菜单 5.controller查询出来菜单,展示到左侧 5.1工具类,拿user_Idd 工具类 6.结果 二、菜单管理界面 1.controller不返回数据,空页面 2. SysMenyServiceImpl 3.6controller层返回数据 4.运行结果:菜单管理显示数据 三、增删改查根据权限显示 1.查询用户能访问的权限SysMenuMapper,以及对应的sql 2. 测试一下是否查到用户权限 四、增删改查功能实现 1.增加—>选择菜单展示 1.1 SysMenuMapper 1.2对应sql 语句 1.3service层SysMenuService 1.4运行结果 2. 1.SysUserController 记住用户名.密码 展示验证码 aplicationContext中添加anon shiro工具类 常量 八.退出登录 1.修改主页面index.html 2.
2)同地域不同可用区网络延时多大? 以腾讯云为例,在同地域选择机房地址的时候,距离大于60公里,要求不同可用区延时小于3ms,来满足云上客户同城容灾建设基本需求。 2.负载均衡公网CLB具备已跨AZ容灾能力 3.NAT网关绑定多个EIP,提升连接数 东西向流量 专线接入、对等链接、云联网、VPN、private link 1.敏感业务建议不要使vpn打通 2.混合云专线接入容灾方案 2.网络容灾复杂度 同城或者异地容灾建设,网络层面因素主要有三个: 1)跨区或者跨地域网络延时,对上层业务影响。 网络延时,通过优化基础设施手段是非常有限的,毕竟受限于实际物理距离和光速。 2)跨区或者跨地域云基础设施容灾能力。 通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。 3)IDC到云上网络高可用建设。 2)云侧网关容灾,主要针对专线接入,通过云联网专线网络和vpc专线网关来实现高可用;通常情况下,以云联网专线网关为主,VPC专线网关为辅。
1.传统容灾中心的架构 容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。 2.容灾级别与能力 容灾系统按保护级别可分为:数据级容灾、应用级容灾、业务级容灾。 按需付费 云容灾可以采用云基础设施或者DRaaS模式,允许用户自由选定重要的系统和数据进行容灾。所以无论是业务接管还是演练,客户只需为实际所使用的资源付费,大大减少了资源的浪费,且提升了效率。 4.云容灾级别和能力 参考传统容灾的级别划分,由于云容灾的基础设施采用了云平台,在云容灾的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云容灾的容灾级别分为:数据级容灾、业务级容灾。 它利用云原生服务,帮助用户实现基于云平台的备份与容灾,利用底层不同的数据技术,及云原生编排能力,实现一键式容灾演练。
2. 异地数据冷备方案2.1 API实现方案数据备份:云平台的数据库数据备份均为同地域,因此需要将该备份数据上传到异地COS存储桶。 2)通过url将备份下载到本地 3)调用cos上传api,将本地的备份文件上传到异地cos桶 4)按照备份业务规则,周期性的执行上面1-3步骤,将备份存储到异地COS存储桶。 2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地容灾能力。 2)配置数据库备份服务,主要包括备份数据源,备份规则配置。图片3)在北京地域新购同等规格的mysql数据库。4) 使用备份服务恢复在新购数据库恢复数据。注意恢复数据库要求为空库。图片3.
为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果? 2. 同城冷备份方案同城数据冷备方案主要依赖于云平台能力备份能力,对现有业务架构没有任何改造,方案架构如下:图片该方案核心要点说明:数据备份:云侧数据库mysql和redis在控制台设置数据备份参数,数据备份存储在COS,具备地域级别容灾 指标详细说明容灾能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。
2. 灾难恢复(Disaster Recovery)阶段定位:灾难发生后的系统重建与容灾关系:现代容灾系统集成恢复功能二、容灾与备份的协同关系1. 功能互补性2. 典型故障应对案例1:数据库误删操作容灾系统同步删除→需从备份恢复案例2:机房级火灾容灾系统接管业务→备份用于数据追溯三、企业灾备体系规划策略1. 风险评估矩阵2. 医疗行业应用三甲医院HIS系统:容灾中心部署中科热备CDP技术实现诊疗业务零中断切换3. 建议企业根据业务特性选择"备份+容灾+恢复"的三维防护策略,定期开展灾备演练,真正实现业务连续性保障。
容灾系统在企业中给与数据安全系数相当高的保障,但是容灾系统倒是是什么,他们是什么意思?恐怕连正在使用容灾备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释容灾备份到底是什么。 容灾不可少 那么建设了备份系统,是否就不需要容灾备份系统? 容灾不能替换备份 容灾系统会完整地把生产系统的任何变化复制到容灾端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时容灾端的 用户信息表也会被完整地删除。 如果是同步容灾,那容灾端同时就删除了;如果是异步容灾,那容灾端在数据异步复制的间隔内就会被删除。这时就需要从备份系统 中取出最新备份,来恢复被错误删除的信息。 (2)允许的RTO和RPO指标 从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量
本文结合云平台公网能力,从网络平台角度来分析容灾建设可行性。 2.公网出口容灾方案 2.1 IDC和云平台出口互为主备 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到云平台,同样云平台公网出口异常,流量切换到IDC。 整体公网出口容灾方案如下: image.png 2.1.1 云平台切换方案。 正常情况下,业务流量通过NAT访问公网,如上路绿色线条标识。 2.1.2 IDC容灾切换方案 正常情况下,IDC业务流量通过NAT访问公网,如上路绿色线条标识。 IDC公网出口容灾方案 (推荐) 1.方案简单,更多依赖云平台能力 2.方案落地快捷。 3.人力成本低,不需要自建系统。 4.维护成本低,不需要后续维护系统稳定性。
综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。 1.应用容灾概述 1.1 应用部署 应用是否满足跨地域/可用区部署? 应用层调用链能接受跨区延时,一般以试点业务先观察,小步迭代方式逐步构建容灾能力。 1)业务完全能接受跨区延时,不同的可用区应用部署规模(1:1),各承载50%的业务流量; 2)业务并不能完全接受跨区延时,为了容灾做业务做了部分妥协,两个可用区业务部署的规模(5:1),主要业务承载在主可用区 容灾切换强依赖于调度系统以及配置系统稳定性。这里稳定性主要包括系统容灾能力和性能;遇到大规模故障,大量信息配置变更请求调度系统和配置系统要能扛住洪峰,是保障这个容灾方案的根基。 2.应用容灾复杂度 计算应用层容灾,主要考虑以下两个方面: 哪些节点执行任务。 这里要区分清楚哪些节点执行核心业务,这里会引入不同的复杂度。
共享存储或数据库主从模式 单元化架构(按用户/业务分片) 成本 专线成本较高,但存储配置可能更简单 异步复制带宽成本相对较低,但架构复杂度和改造成本高 主要优势 高可用、数据零丢失(RPO=0)、故障切换迅速 城市级容灾 2、容灾等级要求:同城双活可应对机房级故障。若需防范城市级灾难(如地震、大规模停电),则需异地双活。 3、成本预算:同城双活专线成本较高,但架构相对简单。
Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的容灾效果 上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——上篇 我们讨论架构设计和部署,接下来的内容是关于相应故障演练验证的实践 故障注入主要通过腾讯云混沌演练平台实现,腾讯云有对外服务的版本 POD异常2种故障注入后的请求示意图,都是主源VIP返回异常码后,进行备源重试: 主源逻辑层单可用区内部分POD异常 通过腾讯云混沌演练平台pod Failed注入,包括前后端不同场景 故障注入后的K8s 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)容灾设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇
为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。 接入腾讯云产品ECDN,能同时获得分布式的容灾访问能力和加速能力 接入层容灾 借助腾讯云CDN的能力 当遇到站点以下两种异常: 后端返回异常的http状态码 接入VIP连接异常 ECDN会重试请求备源 数据层容灾 前面提到,腾讯云CDN具备当后端返回异常的http状态码时ECDN会重试请求备源的能力。 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)容灾设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇