IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。 2.负载均衡公网CLB具备已跨AZ容灾能力 3.NAT网关绑定多个EIP,提升连接数 东西向流量 专线接入、对等链接、云联网、VPN、private link 1.敏感业务建议不要使vpn打通 2.混合云专线接入容灾方案 2.网络容灾复杂度 同城或者异地容灾建设,网络层面因素主要有三个: 1)跨区或者跨地域网络延时,对上层业务影响。 网络延时,通过优化基础设施手段是非常有限的,毕竟受限于实际物理距离和光速。 2)跨区或者跨地域云基础设施容灾能力。 通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。 3)IDC到云上网络高可用建设。 2)云侧网关容灾,主要针对专线接入,通过云联网专线网络和vpc专线网关来实现高可用;通常情况下,以云联网专线网关为主,VPC专线网关为辅。
云容灾不仅提供数据备份功能,还结合计算、存储、网络等云服务能力,允许企业在云端快速部署容灾环境,并进行自动化业务恢复。二、传统容灾 vs. 云容灾在云容灾出现之前,企业通常采用传统容灾方案,如自建异地灾备中心或租用灾备机房。 相比之下,云容灾基于云计算技术,充分利用云平台的弹性和智能化能力,提供了一种更灵活、高效的灾备解决方案:对比项传统容灾云容灾基础设施自建或租用物理灾备中心依赖云服务,无需额外硬件成本投入高昂的硬件、机房 例如,AWS、Azure 和华为云等云厂商都提供多可用区(AZ)架构,支持跨区域业务切换,以降低单点故障风险。2. 对于企业而言,合理规划云容灾方案,不仅是降低 IT 运营成本的有效手段,更是提升市场竞争力和业务稳定性的关键步骤。随着云计算技术的不断发展,云容灾将成为未来企业灾备体系的核心趋势。
本文结合云平台公网能力,从网络平台角度来分析容灾建设可行性。 2.公网出口容灾方案 2.1 IDC和云平台出口互为主备 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到云平台,同样云平台公网出口异常,流量切换到IDC。 云平台NAT网关不支持流量导入,需要企业在VPC自建流量转发系统,推荐流量出口选择直接绑定EIP模式,流量更可控。 整体公网出口容灾方案如下: image.png 2.1.1 云平台切换方案。 2.1.2 IDC容灾切换方案 正常情况下,IDC业务流量通过NAT访问公网,如上路绿色线条标识。 IDC公网出口容灾方案 (推荐) 1.方案简单,更多依赖云平台能力 2.方案落地快捷。 3.人力成本低,不需要自建系统。 4.维护成本低,不需要后续维护系统稳定性。
2.决策因素 首先,要思考以下两个问题: 1)为什么要做容灾? 梳理当前系统“灾”,主要有哪些痛点,并对其优先级排序。 典型案例 虽然这里对“容灾”概念进行扩展,一般指同地域以及跨地域粒度的容灾;以云上客户案例同时结合腾讯云产品能力,分别对同城容灾,异地灾备以及异地多活进行说明。 3.1 异地容灾 异地容灾的核心特征: 1)容灾范围:地域粒度的容灾。 2)流量分布:单地域承载100%业务流量。 3)数据存储:数据库以及存储均在异地做冷备,数据单向同步。 2)该数据层使用云上PAAS产品,云上产品均支持异地容灾能力,同时操作便捷。如CDB和COS均通过云上控制台按钮式方式建设异地容灾能力;而对于es通过ccr方式进行数据复制。 ,同时具备跨可用区容灾能力 2.故障秒级、自动切换能力 3.数据一致性好 待提升: 同地域可用区粒度容灾能力 演进同城多活以及全局高可用 双活双写 待提升: 1.增加业务单元化改造 2.增加整体建设周期相对较长
(2)过度关注架构内因对可用性的影响,忽略外部安全问题对可用性影响。 安全容灾解决方案同业务容灾解决方案的区别: (1)业务容灾解决方案倾向业务架构内因解决问题。 业务容灾问题发生的普遍原因是基于业务访问量,架构负载,业务逻辑等内部可用性层面导致,解决思路多以异地灾备,混合云多活灾备, 数据迁移同步等层面解决。 (2)安全容灾解决方案倾向安全行为外因解决问题。 安全容灾问题的普遍原因是基于外部安全攻击行为导致,解决思路多以数据灾备,主机灾备,安全防御,安全检测等思路解决。 安全的根本目的是:保障业务的连续性。 不能片面地为了“安全”而安全。 服务于 CIA全过程 五.云主机安全容灾解决方案 1.第一步:快照备份,全盘快照 (1)创建云上定期快照:https://cloud.tencent.com/document/product/362/ 2.第二步:云上防御,选择混合云架构勒索防御安全产品 (1)腾讯云 腾讯主机安全混合云解决方案:https://v2.s.tencent.com/activity/news/70 image.png (
但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。 但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 混合云容灾的必要性混合云结合了公有云和私有云的特点,因此在多云部署的环境中,负载均衡、数据安全、服务安全稳定以及扩容伸缩等方面都将变得更加复杂。 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。
3台不停止服务的最低限度是2台(X/2+1),而5台的最低限度是3台。 我们应该保证,集群中最低有3台ZooKeeper是启动的。 2zk_pending_syncs 0 启动另外两台机器的Zookeeper 另外两台机器的配置文件 123456 server.1=10.1.24.110:2888:3888server.2 因此我们需要先修改3-5号机器的配置文件为3台,再关闭1-2号机器 关闭 12345 [hadoop@idc02-kafka-ds-02 bin]$ . 2zk_pending_syncs 0 此时的zk_followers为2,说明Leader已经不认1-2号机器了 关闭1-2号机器 关闭idc02-kafka-ds-00 12345 [hadoop 2zk_pending_syncs 0 没有任何影响 实验成功
数据存储容灾建设主要从数据可靠性和业务稳定性两个维度阐述。这两者有哪些区别呢? 1.数据可靠性 1.1 云硬盘(CBS) 云硬盘采用三副本的分布式机制,系统确认数据在三个副本中都完成写入后才会返回写入成功的响应。 2.业务稳定性 从业务视角来保障稳定性,结合云平台能力,结合自身业务来进一步对业务进行加固。 https://cloud.tencent.com/document/product/362/16312 2.将CBS数据上传异地COS,调用cos分块上传接口。 2.并发上传多个分块。 3.完成整个分块上传,当使用 Upload Part 上传所有分块完成后,必须调用该 API 来完成整个文件的分块上传。
腾讯云跨地域容灾方案DNSPod+CLB.ppt D监控介绍:https://support.dnspod.cn/Kb/showarticle/tsid/16/ D监控切换规则:https://
一、根据权限–查询左侧菜单列表 1.写mapper方法,查询菜单和子菜单,继承myBatisPlus(可选) 2.对应mapper语句 3.service根据用户id查询不同的菜单和权限 目前只写了用户可以看到的菜单和子菜单 在实体类加入字段,存放左侧菜单下的子菜单 5.controller查询出来菜单,展示到左侧 5.1工具类,拿user_Idd 工具类 6.结果 二、菜单管理界面 1.controller不返回数据,空页面 2. SysMenyServiceImpl 3.6controller层返回数据 4.运行结果:菜单管理显示数据 三、增删改查根据权限显示 1.查询用户能访问的权限SysMenuMapper,以及对应的sql 2. 测试一下是否查到用户权限 四、增删改查功能实现 1.增加—>选择菜单展示 1.1 SysMenuMapper 1.2对应sql 语句 1.3service层SysMenuService 1.4运行结果 2. 1.SysUserController 记住用户名.密码 展示验证码 aplicationContext中添加anon shiro工具类 常量 八.退出登录 1.修改主页面index.html 2.
随着业务对持续性要求越来越高,云上不少企业对跨AZ或多地域的容灾建设有强烈的诉求。 本文也平台容灾能力建设优势、云上容灾典型方案以及一站式构建三个方面来进行详细的说明。 1.云平台容灾建设的优势 借助云平台能力有效提升容灾建设效率,同时能减少建设成本。 1)降低容灾建设的技术门槛。 云上核心产品拥有跨地域或者跨可用区容灾能力,减少企业对众多开源方案的依赖和研究,同时还能得到云产品的SLA稳定性的保障。 2)组件HA切换能力建设。 2.云平台容灾解决方案 2.1 同城双活(单写) 同城双活单写,本身对业务依赖较少,相对于双写数据库更依赖于业务,因此云平台对同城双活单写方案更加友好。 以腾讯云为例,构建异地灾备整体架构: image.png 3.一站式构建容灾能力 关于云上容灾能力概况,以腾讯云为例如下: 产品 多可用区实例 多地域实例 CLB 1.控制台支持购买多可用区实例。
2.容灾级别与能力 容灾系统按保护级别可分为:数据级容灾、应用级容灾、业务级容灾。 3.云容灾优势 云容灾是一种基于云平台发展起来的服务模式。 云容灾结合云平台的计算、存储和带宽等诸多优势,相比传统容灾具备了多方面的优势: 基础设施减少 摒弃采购传统的灾备服务器,借助云平台供应商提供的计算和存储平台,或直接采用云容灾DRaaS应用服务。 4.云容灾级别和能力 参考传统容灾的级别划分,由于云容灾的基础设施采用了云平台,在云容灾的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云容灾的容灾级别分为:数据级容灾、业务级容灾。 随着IT基础架构逐渐云化,容灾也面临着云化转型,不断涌现出更多的云容灾产品和方案。
企业业务部署在云上,借助云平台的能力,企业几乎“零”成本拥有同地域数据备份的能力。 2. 异地数据冷备方案2.1 API实现方案数据备份:云平台的数据库数据备份均为同地域,因此需要将该备份数据上传到异地COS存储桶。 2)通过url将备份下载到本地 3)调用cos上传api,将本地的备份文件上传到异地cos桶 4)按照备份业务规则,周期性的执行上面1-3步骤,将备份存储到异地COS存储桶。 2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地容灾能力。 2)配置数据库备份服务,主要包括备份数据源,备份规则配置。图片3)在北京地域新购同等规格的mysql数据库。4) 使用备份服务恢复在新购数据库恢复数据。注意恢复数据库要求为空库。图片3.
为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果? 在云平台主要提供数据备份能力,主要数据备份和恢复,让企业更聚焦业务本身,底层备份技术选型交给云平台负责。2. ,数据备份存储在COS,具备地域级别容灾,RPO依赖于数据库备份周期以及时间。 本文小结同城冷备方案,在云平台的协助下,企业几乎0成本并拥有同城数据冷备能力来保障业务生命线。指标详细说明容灾能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。 2.业务验证能力,业务恢复相当于业务重新部署,对于业务全面测试验证上线能力要求较高。3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。
2. 灾难恢复(Disaster Recovery)阶段定位:灾难发生后的系统重建与容灾关系:现代容灾系统集成恢复功能二、容灾与备份的协同关系1. 功能互补性2. 典型故障应对案例1:数据库误删操作容灾系统同步删除→需从备份恢复案例2:机房级火灾容灾系统接管业务→备份用于数据追溯三、企业灾备体系规划策略1. 风险评估矩阵2. 应用层容灾虚拟化技术:VMware Site Recovery Manager容器化方案:Kubernetes跨集群调度中科热备创新:混合云灾备架构设计五、中科热备解决方案实践1. 政务云建设省级政务云平台:采用中科热备多云灾备方案满足等保2.0三级要求六、灾备体系演进趋势智能化监控:AI预测性维护(中科热备智能运维平台)绿色灾备:液冷技术降低PUE值量子安全:后量子加密技术集成零信任架构
容灾系统在企业中给与数据安全系数相当高的保障,但是容灾系统倒是是什么,他们是什么意思?恐怕连正在使用容灾备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释容灾备份到底是什么。 容灾不可少 那么建设了备份系统,是否就不需要容灾备份系统? 容灾不能替换备份 容灾系统会完整地把生产系统的任何变化复制到容灾端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时容灾端的 用户信息表也会被完整地删除。 如果是同步容灾,那容灾端同时就删除了;如果是异步容灾,那容灾端在数据异步复制的间隔内就会被删除。这时就需要从备份系统 中取出最新备份,来恢复被错误删除的信息。 (2)允许的RTO和RPO指标 从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量
综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。 1.应用容灾概述 1.1 应用部署 应用是否满足跨地域/可用区部署? 2)应用层数据读写,最多能接受跨区写,就近读的模式。 应用在不同可用区部署规模? 应用层能接受跨区延时,但是接受程度,云上客户业务各有差别。 1)业务完全能接受跨区延时,不同的可用区应用部署规模(1:1),各承载50%的业务流量; 2)业务并不能完全接受跨区延时,为了容灾做业务做了部分妥协,两个可用区业务部署的规模(5:1),主要业务承载在主可用区 容灾切换强依赖于调度系统以及配置系统稳定性。这里稳定性主要包括系统容灾能力和性能;遇到大规模故障,大量信息配置变更请求调度系统和配置系统要能扛住洪峰,是保障这个容灾方案的根基。 2.应用容灾复杂度 计算应用层容灾,主要考虑以下两个方面: 哪些节点执行任务。 这里要区分清楚哪些节点执行核心业务,这里会引入不同的复杂度。
云容灾架构建设新范式——云上混沌工程 为了减少一个云厂商服务或者云产品不可用时给业务带来的影响,云容灾架构就是一个有效的方案,但是这仅仅是一个理论上可行的方案,事实是否真的有效呢? 有没有一个标准的范式可以帮助用云的团队验证容灾方案有效性,以及进行常态化的容灾稳定性建设呢?有,便是开展云上的混沌工程。 什么是云上混沌工程? 在云上开展混沌工程,可以帮助用户发现平时难以发现的容灾设计隐患并及时修复验证。将云上混沌工程纳入到业务系统的发展周期中是科学,有必要的。 腾讯云混沌异地多活容灾客户案例 上图便是一个针对云数据库腾讯云&用户IDC容灾混沌场景,通过引入「云数据库MySQL不可用」以及「云数据库Redis不可用」故障,模拟数据库单云灾难场景。 用于验证业务架构是否能够及时切换到IDC环境数据库,达到业务容灾要求。通过该云上的混沌演练,可以验证云上云下的容灾架构有效性以及故障应急处理机制是否合理,也可显著提高用户面对单云数据库灾难时的信心。
MSHA 云原生多活容灾解决方案 [1] ,也发布了混合云多活容灾产品能力。 混合云容灾目标 业务容灾需求归纳如下: 云上云下互容灾,切换 RTO 为分钟级。 期望云上云下相互容灾,继续发挥 IDC 的价值,且不 100% 依赖于云。 建设难点 流量管理难度高 若采用 DNS 将流量按权重解析到云上和云下,存在修改 DNS 解析生效时间长的问题(通常为十分钟或小时级,参见 DNS 解析生效时间 FAQ [2] ),不能满足容灾切换小于 解决方案 结合业务容灾需求和混合云 IDC+云形态的特点,采用应用双活架构能够较好的满足业务容灾诉求。 总结 在本篇文章中,我们介绍了 MSHA 多活容灾助力企业进行混合云应用双活容灾建设的实践案例,给出了容灾架构建设实践方法,同时利用 Chaos 故障演练产品注入真实故障,来验证故障场景业务容灾能力是否符合预期
共享存储或数据库主从模式 单元化架构(按用户/业务分片) 成本 专线成本较高,但存储配置可能更简单 异步复制带宽成本相对较低,但架构复杂度和改造成本高 主要优势 高可用、数据零丢失(RPO=0)、故障切换迅速 城市级容灾 2、容灾等级要求:同城双活可应对机房级故障。若需防范城市级灾难(如地震、大规模停电),则需异地双活。 3、成本预算:同城双活专线成本较高,但架构相对简单。