本帖最后由 山东_朱文鑫 于 2022-12-3 20:45 编辑
大家好,我是大白,贵有恒,何必三更眠五更起;最无益,莫过一日曝十日寒。优质的帖子也在尽力中提供,也希望各位道友多多支持,让我引劫渡劫成功哈哈哈。
大白队口号就是:砸锅卖铁我最行,拼死拼活就要赢!!!!!!!!!!!!
今天要分享的是深信服云计算平台SCP主备容灾配置思路及验证分享,本贴是作为超融合集群异地容灾式的部署以及测试方案进行讲解整个基本的配置流程,关于详细的主备容灾信息会额外发帖进行讲解分享。
项目背景:
随着业务的持续扩展,稳定的IT建设也愈发重要。为了保障业务连续性,需要保障业务的稳定连续性,测试容灾功能的使用情况。
本次使用的是现有的X86测试集群作为主站点,使用华为外置存储为主站点提供外置存储容量,新搭建一套X86的集群作为备站点。
项目硬件资料:
主站点:
中科可控服务器
CPU:32核64线程 X 2(Hygon C86 7285 32-core Processor)
内存:768G
网口:6*10GbE 4*1GbE
备站点:
中科可控服务器
CPU:32核64线程 X 2(Hygon C86 7285 32-core Processor)
内存:768G
网口:4*10GbE 4*1GbE
拓扑环境:
HCI异地容灾网络规划:
集群的主备站点均位于一个机房内部,使用二层交换机级联打通。统一被SCP纳管。
HCI的主备站点HCI集群搭建:
这里参考用户使用手册正常搭建好两个集群即可
HCI异地主备容灾配置:
1.配置容灾站点,在[可靠中心/异地容灾/站点管理/添加站点]。将主、备HCI数据中心添加进来。
2.配置容灾链路,在[可靠中心/异地容灾/站点管理/链路管理]下,新增链路:
选择主HCI和备HCI数据中心。 链路传输带宽限制设置为不限制
3.容灾IP配置设置为二层链路,通信网口选择为管理口,然后点<确认>。
4.创建容灾策略,在[可靠中心/异地容灾/容灾策略/创建容灾策略]。其中:
主站点选择主数据中心。
备站点选择备数据中心。
云主机选择待测试虚拟机。
异地容灾方式选项下,容灾RPO选择“1秒”(容灾频率根据实际业务要求进行测试,如果客户没有要求,采用RPO为1秒的容灾频率进行测试)。
异地容灾位置选择为备数据中心的虚拟存储卷,高级配置中传输方式可根据主、备数据中心的管理连通网络决定是否采用“压缩传输”,告警阈值保持默认。
本地备份方式选项下,本地备份频率选择“持续数据保护(秒级)”。
本地备份位置选择“外置存储”,IO日志存放位置选择为“虚拟存储卷”。
勾选“创建容灾策略成功后,立即执行容灾策略”,然后点“提交并配置备站点网络”。
等待创建容灾策略成功,点“配置备站点网络”,在备站点的拓扑图中,在“容灾备机”中拖拽测试虚拟机将其连接到对应的虚拟交换机上。
5.创建受保护业务组,在[可靠中心/异地容灾/受保护业务组]创建受保护业务组。其中:
名称为:“测试业务组”。 重要级别选择高。 主站点选择主数据中心。 备站点选择备数据中心。
云主机选择测试虚拟机。
在“创建受保护业务组”向导中直接创建“恢复计划”。
填写恢复计划名称:“测试虚拟机恢复计划”。
注:业务组和恢复计划中不一定只有1台主机,通常是把相同业务的云主机放到同一个业务组和恢复计划。
HCI异地主备容灾测试:
主站点恢复:
测试项 | | | | | [size=9.0000pt]在对业务系统的运维过程中,可能会出现主站点集群正常,但是少数虚拟机异常不可用的情况出现,此时可以通过主站点恢复的方式进行测试。 | | 1. 客户端已安装Chrome兼容性较好的浏览器。 1. 已成功部署测试虚拟机主机,并已配置容灾策略。 2. 已配置“业务组”和“恢复计划”。 | | 1. 在测试虚拟机桌面创建一个文件为主站点恢复.txt并在文件中进行写入。 2. 在[可靠中心/异地容灾/容灾状态,查看云主测试主机的容灾状态是否满足RPO的需求。满足后进行下一步。 3. 在[可靠中心/异地容灾/恢复计划,选择“这个主机的恢复计划”,点<恢复>,“主站点备份恢复”,选择“生成全新云主机”,然后点<下一步>。 4. 选择恢复的虚拟存储,然后点<确定> 执行恢复。 5. 输入密码后点<确定>。 6. 等待一段时间,等待“任务列表”中的容灾任务“主站点备份恢复”完成。 | | 1. 进入容灾的云主机“测试主机”的控制台页面,查看主站点恢复.txt文件是否存在,对应内容是否发生改变 | | |
演练模式:
测试项 | | | | | [size=9.0000pt]在对业务系统的运维过程中,本地机房和异地机房组建一个容灾主备数据中心,管理员需要通过提前演练的方式了解业务是否可以随时切换到异地灾备机房(预计时间10分钟) | | 1. 客户端已安装Chrome兼容性较好的浏览器。 1. 已成功部署测试平台和测试业务系统环境,并已配置容灾策略。 2. 已配置“业务组”和“恢复计划”。 | | 1. 在测试虚拟机桌面创建一个文件为演练.txt并在文件中进行写入 2. 在可靠中心-异地容灾-容灾状态,查看云主机“测试主机”的容灾状态是否满足RPO的需求。满足后进行下一步。 3. 在[可靠中心/异地容灾/恢复计划,选择“测试主机恢复计划”,点[演练,下一步选择“立即同步(默认选择最新恢复点,同步数据完成后,再从备站点执行演练)”,选择要恢复到备站点的虚拟存储,然后点<确定> 执行恢复。
1. 输入密码后点<确定>。 2. 等待“任务列表”中的容灾任务“演练”完成。 3. 登录备站点新生成演练机“演练测试主机”的控制台,确认演练结果。
4. 演练结束后,在[可靠中心/异地容灾/恢复计划中,点击[结束演练。 5. 输入密码后点<确定>。 | | 1. 进入备站点新生成演练机“演练测试主机”的控制台,查看是否存在演练.txt文件并进行文件内容验证 2. 点击[结束演练后,所有备站点创建的演练虚拟机都自动销毁。 3. 点击导出报告,即可导出对应的演练报告 | | |
计划内恢复:
测试项 | | | | | [size=9.0000pt]在对业务系统的运维过程中,本地机房和异地机房组建一个容灾主备数据中心,管理员需要通过计划内迁移的方式了解业务是否可以随时切换到异地灾备机房(预计时间10分钟) | | 1. 客户端已安装Chrome兼容性较好的浏览器。 1. 已成功部署测试平台和测试业务系统环境,并已配置容灾策略。 2. 已配置“业务组”和“恢复计划”。 | | 1. 在创建业务组的时候,选择云主机的开机顺序为测试主机02先开机,测试主机03后开机。 2. 测试虚拟机桌面测试主机02和测试主机03虚拟机上创建一个文件为“计划内迁移.txt”并在文件中进行写入。
3. 在可靠中心-异地容灾-容灾状态,查看云主机“测试主机02”和云主机“测试主机03”的容灾状态是否满足RPO的需求,满足后进行下一步。 4. 在可靠中心-异地容灾-恢复计划,选择云主机“测试主机02-03恢复计划”,点<恢复>,“恢复到备站点”,选择“计划内恢复(主站点需要在线)”,选择“恢复后自动开启云主机”然后点<下一步>。 5. 选择恢复到备站点的虚拟存储,然后点<确定> 执行恢复。 6. 输入密码后点<确定>。 7. 等待一段时间,等待“任务列表”中的容灾任务“计划内恢复云主机”完成。
| | 1. 在HCI的任务列表中可以发现虚拟机的开机顺序为测试主机02先开机然后是测试主机03再开机。
2. 进入容灾的云主机“测试主机02”和云主机“测试主机03”的控制台页面,可以查看到之前创建的“计划内迁移.txt”文件并核对文件内容
| | |
计划内主机迁回:
测试项 | | | | | [size=9.0000pt]在对业务系统的运维过程中,本地机房和异地机房组建一个容灾主备数据中心,管理员已通过计划内迁移的方式了解业务可以随时切换到异地灾备机房,现需要将业务从异地灾备机房迁移回主机房(预计时间10分钟) | | 1. 客户端已安装Chrome兼容性较好的浏览器。 1. 已成功部署测试平台和测试业务系统环境,并已配置容灾策略。 2. 已配置“业务组”和“恢复计划”。 | | 1. 在测试虚拟机桌面测试主机02和测试主机03虚拟机上创建一个文件为“计划内主机回迁.txt”并在文件中进行写入。
2. 在[可靠中心/异地容灾/恢复计划,选择恢复计划“测试主机02-03恢复计划”,点[回迁到主站点,选择回迁到主站点的虚拟存储,然后点<确定>执行回迁。
3. 输入密码后点<确定>。 4. 等待一段时间,等待“任务列表”中的容灾任务状态为“等待关机”。 5. 手动关闭测试主机02和测试主机03虚拟机 6. 等待一段时间,等待“任务列表”中的容灾任务状态为“回迁成功” | | 1. 进入容灾的云主机“测试主机02”和云主机“测试主机03”的控制台页面,可以查看到之前创建的“计划内主机回迁.txt”文件并核对文件内容
| | |
评估主备容灾性能名词知识点:
RTO(Recovery Time Objective,RTO)恢复时间目标,指在故障或灾难发生之后,一台电脑、系统、网络或应用停止工作的最高可承受时间。该参数定义了最大可容忍时限,必须在此时限内恢复数据。如果说系统需要在灾难发生的12个小时内恢复,那么RTO数值就是12小时。RTO具体时间长短只是从故障发生后,从系统宕机导致业务中断的那一刻开始,到系统恢复至可以支持各业务正常运作之时,这两个节点之间的时间段。RTO是反映系统业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强。RTO=0就意味着在任何情况下都不允许目标业务有任何运营停顿。
RPO(Recovery Point Object)恢复点目标,指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点,是业务系统所能容忍的数据丢失量。例如每天00:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的时间点(RPO)就是今天的00:00,如果凌晨3点发生灾难或宕机事件,损失的数据就是三个小时,如果23:59发生灾难,那么损失的数据就是约24小时,所以该用户的RPO就是24小时,即用户最大的数据损失量是24小时。所以RPO指的是用户允许损失的最大数据量。这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。CI异地主备容灾测试
以上就是本次的深信服云计算平台SCP主备容灾X86国产化配置思路及验证分享,后续会完成主备容灾技术的详细知识点分享以及讲解,感谢大佬们的参阅,此贴先到这里后续会带上更加实用的帖子,感谢大家!
励志分享超清壁纸语句~~:
只有向自己提出伟大理想,并以自己全部的力量为之奋斗的人,才是最幸福的。——加里宁
好的今天就到这里,老样子,感谢各位大神的参阅,孩子为了挣豆子不容易,孩子家里穷没豆子吃饭了!!! |