一、客户环境版本信息: 超融合:aCloud 5.8.7R1 虚拟机操作系统:win2012 数据库版本:SQL 2012
二、现场环境客户凌晨因电子病历业务服务器D分区空间不够,导致电子病历业务无法使用,客户调整分区扩容失败,导致D分区不可使用。
三、处理思路当出现这个问题的时候,首先想到的是,客户有没有备份数据的措施,原有的虚拟机里的操作有没有什么办法回滚,尽量还是使用原来的虚拟机环境,明确故障发生的时间,综合客户现有的措施,制定相应的业务恢复计划,协调相关工程师,包括客户现场的运维人员,业务系统运维工程师,虚拟化工程师,硬件工程师等等。
好在客户在购买超融合的时候,同时购买了5个点的CDP保护功能,并且在该业务服务器开启了该保护。
四、操作步骤4.1使用CDP恢复指定的时间节点
通过综合分析,客户大约在凌晨3点多电子病历业务不可用,6点44分的时候就已经出现问题了,那我们恢复时间节点定在5点17分8秒这个节点,勾选恢复,通过恢复功能可以在15分钟内恢复到指定节点的数据,并且业务处理性能能在半个小时左右的时间恢复。 4.2 CDP恢复步骤
选择生成全新的虚拟机 选择恢复虚拟机的名称及运行位置和存储位置。 4.3恢复完成后检查数据
15分钟左右过后,通过CDP功能恢复的虚拟机成功启动,检查恢复对应时间节点的数据库文件情况。 4.4恢复业务系统
在恢复业务系统运行的过程中碰到了SQL 2012数据库“正在恢复”的故障现象,分析可能是CDP恢复到制定时间节点的数据,虚拟机里的数据库服务并不是正常关闭后的状态,导致开机后触发数据库正在恢复的保护。 4.4.1 解决“正在恢复”故障以下是从互联网整理的真实有效的解决办法 1、关闭数据库的服务。 2、然后把数据库文件剪切出来。 3、然后在重启服务。进入SqlSever删除数据库(因为文件已经剪切走了,所以不会删除文件)。 4、再把数据库拷到MicrosoftSQL Server文件夹中的Data文件夹在附加就可以了。
通过以上办法,确实能够恢复业务,由于数据库日志文件较大300多个G,附加的过程一直在转圈圈,恢复的同时,业务系统工程师也在我恢复的第二个电子病历业务系统副本上,通过其他方法恢复业务,但是最终没有附加的办法快,通过附加的方案花费了8个小时的时间,虽然时间很长,但是最终的结果是好的。
4.4.2 操作日志信息截图大家可以看一下其中的过程记录,备份数据整理的过程花费的时间较长,可以在我整理的知识点学习里看到,为啥这么慢。
在备份数据整理的过程中是无法开启CDP保护的,导致启动虚拟机的CDP保护功能失败,只有当备份数据整理完毕后才可以开启CDP功能。
五、分析总结
在CDP恢复的过程中要选择“恢复”而不是“克隆”,克隆的速度视虚拟机的大小决定,在重要操作之前如果有CDP功能可以开个CDP保护一下,防止业务无法恢复,即便可能需要的时间长一点,也要首先保障业务。
六、知识点学习 6.1 CDP部分持续数据保护(CDP)是一种在不影响主要数据运行的前提下,可以实现持续捕捉或跟踪目标数据所发生的任何变化,并且能够恢复到此前任意时间点的方法。
某公司超融合平台提供了虚拟机级别的持续数据保护(CDP)方案,该方案能够持续记录重要业务的每一个IO,做到秒级恢复的完整业务,也可以快速地找回过去对应的IO时刻的业务系统文件。 核心业务系统,如核心数据库、 ERP系统、订单系统和Exchange系统等,推荐采用某公司的持续数据保护(CDP)方案。
某公司的CDP方案在数据同步过程,不会对虚拟机的IO性能造成任何影响。在系统内部, CDP进程采用了缓存异步复制方式来同步虚拟机的IO数据,当虚拟机开启了CDP功能之后,虚拟机写到磁盘的每一个IO会复制到CDP的IO缓存,然后由CDP服务异步的写入到CDP的IO日志系统。 某公司的CDP方案能够支持从每一个IO归档点恢复备份,也支持快速恢复指定的CDP备份内的文件,用户可以根据实际情况选择最佳的恢复方式。
快速拉起 快速拉起功能可在需要恢复虚拟机时,立即创建虚拟机并启动,整个过程在3分钟内完成,15分钟内性能爬升到正常使用的状态,快速帮助客户恢复业务运行,极好地保障了业务连续性,RTO≤15分钟。
通过快速拉起全新虚拟机,可以快速验证备份的有效性,并保护此备份。
|