本帖最后由 wrx 于 2023-12-18 13:08 编辑
事情原因:
客户某医院HIS数据库系统,在前一天晚上做了业务迁移,迁移后测试业务正常,第二条早上客户发现割接后的虚拟机内存是64G(原有虚拟机是128,割接后的虚拟机由于当时集群资源不够,所以配置的64G),便问是否可以直接扩容,由于是Linux系统,便直接回复客户可以热添加内存 然后客户就开始扩容操作了,先修改的备HIS数据库,但是提示扩容失败,提示“虚拟机热添加内存失败!当前物理主机内存足够,但是碎片较多,无法分配足够的连续大页内存,建议您关闭该主机上的一些虚拟机以释放内存,然后重试”(这个时候应该就是天意不让操作了 ),但是还是头铁的回复客户解决办法 不出意外,然后就出意外了,在客户操作的后一分钟,电话来了,还是直接视频通话的那种
问题现象: 在和客户沟通后了解到,客户当时由于要迁移虚拟机才能修改内存,想着这个操作由我这边来进行,就先在SCP上将设置的原有测试的IP改成正式的IP(昨天晚上迁移时,业务方是直接在虚拟机内部改的IP,客户看到后就在SCP上也改过来了),大概判断应该是在修改IP这个操作上出现问题了。 果不其然,大概了解后,发现业务方用的双机软件ROSE HA状态异常,HA IP也无法访问,在虚拟机后台看原来的HA IP不见了,当时处理没来得及截图,标红的这一块没有了,IP也无法访问。
处理过程: 了解到问题现象后,判断应该就是这个HA IP不见了,导致业务异常,该怎么去让它重新回来呢,急联ROSE HA的400!!!再电话沟通指导一顿操作后,它终于回来了! 解决办法就是在ROSE软件上将HA IP这个资源组带出,然后再重新带入下(简单来说就是把HA IP的配置重新加上去了)
问题原因: 从问题现象来看,就是提交网卡配置导致原有ROSE HA软件配置的IP被删除,所以就联系专家确认后,SCP上提交网卡配置,会将原有网卡配置覆盖,由于SCP上没办法提交HA IP,所以相当于配置文件里面没有这个IP,所以就消失了。
解决办法: 虽然业务是已经恢复了,但是内存还没进行扩容,客户当时就提出了一个问题,如果只修改内存配置,IP配置是否也会重新覆盖上去,抱着这个问题再三想专家确认后是会的!!! 怎么处理呢,专家给出的建议是将SCP上网卡配置取消勾选,然后只提交内存配置,但是客户由于出现过业务中断的事情,专家也不能100%确认是否没问题,建议在协调业务时间进行操作。 所以为了打消客户顾虑,我新建了一台虚拟机模拟操作,大概步骤如下: 1.通过SCP配置IP 2.虚拟机内部修改IP 3.SCP上取消IP配置勾选 4.修改内存并提交
我将录制整个测试操作录制的视频发给客户后,客户也就打消了顾虑: 1.先迁移备机虚拟机至新扩容的主机上: 2.迁移成功后加内存,客户反馈反正是备机,不能等到晚上操作(客户胆子还是大,当时我已经想晚上操作了 ) 3.改主机内存:客户看改备机是没什么问题的,干脆直接改完 4.修改完成,至此所有操作完成,测试业务正常(总算弄完了)
后续建议: 1.如果客户业务有用双机软件,建议不要使用SCP或者HCI配置IP,直接在后台进行修改 2.涉及客户核心业务,无论是简单还是复杂的操作,一定要再三确认后等业务空闲期进行操作,操作前做好变更事项和回退方案!!!(也是给自己提个醒 ) |