场景:两台主机组建了超融合集群,在不同网口掉线的情况下,某公司超融合平台怎样保证业务的高可用性或者是数据的一致性 1单一情况 1.1存储通信口掉线两台超融合一体机组建集群,拔掉其中一台主机的存储通信口,虚拟机是不会迁移的(总部专家说,现在故障探测IP已经没有多少作用了,所以在两台主机的情况下,是可以将两台主机的存储通信口直连的)
虚拟机的存储位置是同时在两台主机上,也就是它的存储未掉线,也就不满足存储掉线的迁移的条件,所以不进行迁移
而当存储网络恢复之后,虚拟机在之前存储掉线的主机上产生的数据,会自动同步到另外一台主机上去。
1.2管理口掉线如果单纯拔掉管理口,虚拟机也是不会发生迁移的,因为此时不满足迁移的条件
1.3业务口掉线如果将虚拟机的业务口拔掉 虚拟机会自动迁移到健康的主机上去运行,这个昨天已经在汇英测试过,是没问题的,同时,拔掉业务口也可以模拟主机宕机的情况。
1.4外置存储掉线如果使用了外置存储,某台主机的外置存储掉线后,虚拟机会自动发生迁移的,因为此时虚拟机无法访问到它的存储了,满足迁移的条件
2复合情况 2.1 外置存储+管理口掉线通过如下方法避免脑裂导致写入错误的数据 故障处理机制:
虚拟机恢复机制:
2.2 存储通信口+管理口掉线 如果是两台主机组建集群的情况下,就会发生脑裂, 当脑裂发生了,并且网络恢复后,修复程序通过仲裁IP选源,保留最近没掉线的VM,选其作为源进行修复,并将其他虚拟机实例关闭,因此可能会出现数据丢失(因为最近没掉线的虚拟机写入的数据并不一定是全部的数据,在脑裂期间,其它主机上启动的相同虚拟机有可能有数据没有写入) 针对这种情况,建议业务口和管理口复用,这时候如果 1、管理口掉线,那么业务口自然也是掉线的,这时候用户就无法向掉线的主机上的虚拟机写入数据了,而只有管理口还在线的主机上的虚拟机可以写入数据。
2、而当网络恢复之后,根据如下原则: 所以集群自然会选择没有掉线的主机作为源来进行修复。 通过上面的方式,就可以避免了数据不一致性。
|