本帖最后由 常鸿 于 2023-11-10 14:03 编辑
咱们SCP上有这样一个授权,异地容灾aDR 如果客户的私有云上的业务很重要,并且随时要提供服务,像是医院、银行等这种机构,很有必要创建一个灾备机房 然后容灾这个功能已经成了刚需 最近正好有个测试,研究了一下咱们的异地容灾这个功能
首先,主机房和容灾机房的网络建设,拓扑大致如下:
容灾(Disaster Tolerance),就是在自然灾害、设备故障、人为操作破坏等的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。
咱们的容灾功能,首先要明确的是,容灾过程全程需要人为干预,当主机房出现问题时候,需要手动操作,拉起备机房的虚拟机,包括最后业务回迁,都是手动来执行的。 如果想实现自动切换,可以用延伸集群,这里不过多介绍
配置过程 首先你要有两个HCI集群,然后两套SCP
SCP需要是主备部署的,备SCP处于待机状态,如果主SCP一旦挂掉,需要手动拉起备SCP
然后网络架构上面,需要多规划一个容灾网口,平时用来传输CDP的数据,为了不挤压业务数据,最好单独规划网口和网络
容灾策略创建是很简单的
大概过程就是 选择需要的RPO ,然后选择 本地和异地的CDP备份位置 再创建一下恢复策略,选择一些需要容灾的虚拟机 策略配置完成以后,首次会进行全量备份的传输,备份传输完毕以后,就进入一个CDP同时写入的状态,也是正式到了容灾保护的阶段
如果有监控大屏,咱们还有个投屏的功能,界面是比较好看的
容灾有两种恢复模式,一个是计划内,一个是灾难后 简单介绍一下两个过程的适用场景
第一种计划内 这种情况,加入主机房要整体搬迁,或者机房要停电维护,然后业务和数据可以找个数据量小的时间点,进行切换到容灾集群,这个切换时间很快,是秒级的
容灾流程大概是这样 SCP进行备集群业务恢复——主机群虚拟机关机——备集群虚拟机拉起(数据不会丢失,但是会短暂业务断开)——备集群虚拟机支撑业务,产生新数据——主机群恢复上线(业务虚拟机关机状态)——业务回迁(增量数据回拷)——备集群虚拟机关机(手动关机)——从业务回迁开始到关闭备集群虚拟机这段时间段的新增数据迁移——主集群虚拟机上线支撑业务
第二种是灾难后
这个情况就是主机房非人为原因,产生了业务宕机,这个就需要手动进行业务拉起,这个过程肯定是已经业务停止了,需要紧急救援
容灾流程整体差不多 如果SCP备机是运行在容灾集群里,那么第一步就是唤醒备机房SCP,大概需要个5-10分钟,然后再进行容灾流程
这个需要按照主机房的情况,如果只是断电这种情况,恢复电力了,原有数据还在,那么回迁的时候就只进行增量数据的迁移 但是如果是火灾,地震,主机房已经死透了,那么机房重建以后,就是一个全量复制的过程了
回迁是会有影响业务的时间的 影响时间,跟业务的增量数据频率和大小有关系,建议在凌晨这种业务不密集的时间段来进行
我这边实际做了一次容灾演练,用客户的一台数据库为源虚拟机 先主机群宕机,然后容灾到了备集群 在备集群写入了大概40G 的数据 然后开始主机群上线,开始回迁,回迁时候对数据库进行插入操作,每秒800+条的数据写入动作
我配置的CDP策略是5秒记录一次IO数据
最后回迁完成了,业务停机时间是4分钟,丢失的数据 大概是4.4秒的数据库插入数据
演示完成汇报以后,客户对咱们的容灾能力,还是很认可的 |