×

【天逸出品】【第六十四期】探寻SCP的容灾能力
  

常鸿 3490

{{ttag.title}}
本帖最后由 常鸿 于 2023-11-10 14:03 编辑


咱们SCP上有这样一个授权,异地容灾aDR
如果客户的私有云上的业务很重要,并且随时要提供服务,像是医院、银行等这种机构,很有必要创建一个灾备机房
然后容灾这个功能已经成了刚需
最近正好有个测试,研究了一下咱们的异地容灾这个功能

首先,主机房和容灾机房的网络建设,拓扑大致如下:



容灾(Disaster Tolerance),就是在自然灾害、设备故障、人为操作破坏等的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。

咱们的容灾功能,首先要明确的是,容灾过程全程需要人为干预,当主机房出现问题时候,需要手动操作,拉起备机房的虚拟机,包括最后业务回迁,都是手动来执行的。
如果想实现自动切换,可以用延伸集群,这里不过多介绍

配置过程
首先你要有两个HCI集群,然后两套SCP

SCP需要是主备部署的,备SCP处于待机状态,如果主SCP一旦挂掉,需要手动拉起备SCP

然后网络架构上面,需要多规划一个容灾网口,平时用来传输CDP的数据,为了不挤压业务数据,最好单独规划网口和网络

容灾策略创建是很简单的

大概过程就是 选择需要的RPO ,然后选择 本地和异地的CDP备份位置
再创建一下恢复策略,选择一些需要容灾的虚拟机
策略配置完成以后,首次会进行全量备份的传输,备份传输完毕以后,就进入一个CDP同时写入的状态,也是正式到了容灾保护的阶段

如果有监控大屏,咱们还有个投屏的功能,界面是比较好看的



容灾有两种恢复模式,一个是计划内,一个是灾难后
简单介绍一下两个过程的适用场景

第一种计划内
这种情况,加入主机房要整体搬迁,或者机房要停电维护,然后业务和数据可以找个数据量小的时间点,进行切换到容灾集群,这个切换时间很快,是秒级的

容灾流程大概是这样
SCP进行备集群业务恢复——主机群虚拟机关机——备集群虚拟机拉起(数据不会丢失,但是会短暂业务断开)——备集群虚拟机支撑业务,产生新数据——主机群恢复上线(业务虚拟机关机状态)——业务回迁(增量数据回拷)——备集群虚拟机关机(手动关机)——从业务回迁开始到关闭备集群虚拟机这段时间段的新增数据迁移——主集群虚拟机上线支撑业务


第二种是灾难后

这个情况就是主机房非人为原因,产生了业务宕机,这个就需要手动进行业务拉起,这个过程肯定是已经业务停止了,需要紧急救援

容灾流程整体差不多
如果SCP备机是运行在容灾集群里,那么第一步就是唤醒备机房SCP,大概需要个5-10分钟,然后再进行容灾流程

这个需要按照主机房的情况,如果只是断电这种情况,恢复电力了,原有数据还在,那么回迁的时候就只进行增量数据的迁移
但是如果是火灾,地震,主机房已经死透了,那么机房重建以后,就是一个全量复制的过程了


回迁是会有影响业务的时间的
影响时间,跟业务的增量数据频率和大小有关系,建议在凌晨这种业务不密集的时间段来进行

我这边实际做了一次容灾演练,用客户的一台数据库为源虚拟机
先主机群宕机,然后容灾到了备集群
在备集群写入了大概40G 的数据
然后开始主机群上线,开始回迁,回迁时候对数据库进行插入操作,每秒800+条的数据写入动作

我配置的CDP策略是5秒记录一次IO数据

最后回迁完成了,业务停机时间是4分钟,丢失的数据 大概是4.4秒的数据库插入数据

演示完成汇报以后,客户对咱们的容灾能力,还是很认可的

打赏鼓励作者,期待更多好文!

打赏
4人已打赏

ggbang 发表于 2023-11-10 13:48
  
学到了学到了
李会斌 发表于 2023-11-10 16:04
  
6666666666666666666666666
南昌办_周聪 发表于 2023-11-10 17:17
  
666666666666666666
山东_陈文龙 发表于 2023-11-14 20:49
  

感谢分享有助于工资和学习!
山东_王明航 发表于 2023-12-1 16:18
  
感谢分享有助于工资和学习!
新手378833 发表于 2023-12-12 08:43
  
每天坚持打卡学习签到!!
新手716814 发表于 2024-1-5 09:47
  
有配置的相关截图就更好了。
李润东 发表于 2024-1-16 08:52
  
新手626351 发表于 2024-2-5 12:44
  
66666666666666
发表新帖
热门标签
全部标签>
安全效果
西北区每日一问
技术盲盒
技术笔记
干货满满
【 社区to talk】
每日一问
信服课堂视频
GIF动图学习
新版本体验
技术咨询
2023技术争霸赛专题
功能体验
产品连连看
标准化排查
通用技术
秒懂零信任
技术晨报
自助服务平台操作指引
安装部署配置
原创分享
排障笔记本
玩转零信任
排障那些事
SDP百科
技术争霸赛
深信服技术支持平台
以战代练
升级&主动服务
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
高手请过招
高频问题集锦
社区新周刊
POC测试案例
全能先锋系列
云化安全能力

本版版主

64
27
4

发帖

粉丝

关注

12
5
2

发帖

粉丝

关注

本版达人