×

【aCloud】HA测试之误操作导致脑裂
  

Spanlee 162

问题描述   

                                

      客户环境是两个节点的超融合,部署完成后,进行HA测试,通过拔带另外一台物理主机的所有网线模拟物理主机离线或宕机。HA完成后,插回网线。


    脑裂后是没有告警信息的,不过会有一个现象。重启两台物理主机后,虚拟机可以开始开机操作(如下图),但最后会开机失败。
356105d71ce41ae060.png

处理过程                                    
这种情况下,重启两台物理主机后,可能是两台主机数据不同步导致脑裂,这时需要协调深信400帮忙解决问题,看是否能够找回数据。


原因
                                    
HA过程中拔掉其中一台主机的所有网线模拟主机离线或宕机,这时两台主机的虚拟机都在运行(会导致两个副本数据不一致),且相互认为另外一台主机离线,两台主机会把各自的副本当作集群的主运行副本,重启主机后,集群不能确认哪个副本是主运行副本,导致虚拟机不能开机。


解决方案                                    
1. 若问题已经产生,这时只能联系深信服400,寻找研发,找到两个副本,先把其中一个副本挂载,协调客户确认副本没问题后,用此副本覆盖另外一个副本。若两个副本都有问题,只能尽量对比,用最新的副本覆盖旧的副本。最坏结果就是数据丢失,找不回来了。

2.最佳解决方案就是严格按照标准化测试方案进行测试,避免误操作。
                                                        

建议与总结                                   
1.若要避免这种误操作,首先不能用拔掉物理主机所有网线的方式模拟主机离线。关于HA测试,请严格遵守超融合标准化PoC测试方案中的《A01-HCI-POC-深信服超融合测试方案》中的计划外保护HA。如果可以的话,进行HA测试前,先咨询深信服厂家服务或请教有HA测试经验的同事。

2.在做超融合方案时,可以推荐使用至少三个节点以上的部署方案,可以有效避免脑裂现象的产生。
                                
                                




给楼主打赏,鼓励TA抓紧创作

打赏
暂无人打赏

×
有话想说?点这里!
可评论、可发帖
发表新帖

本版版主

1194
461
124

发帖

粉丝

关注

161
144
18

发帖

粉丝

关注

本版热帖

本版达人

东北小兵

本周建议达人

QI

本周分享达人

新手73241...

本周提问达人