问题现象 在某公司负载均衡AD非交易DMZ链路健康检测故障的情况下,检测到设备频繁发生主备切换。 处理过程 1、查看设备接口链路健康状态,显示非交易区DMZ链路处于故障状态。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps1.png 2、在设备命令控制台,ping接口网关地址一直处于时通时不通的状态,在互连的交换机ping负载均衡非交易DMZ接口的IP地址也频繁出现时通时不通的状态。判断交换机接口聚合模式配置有问题。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps2.png 3、查看两台负载均衡系统日志,两台AD频繁出现监视器故障,又恢复健康。导致设备发生主备切换。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps3.jpg file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps4.jpg file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps5.jpg 4、协调排查交换机配置。确认链路检测故障原因为交换机配置的聚合为不协商模式,通过调整交换机配置后,接口检测故障问题解决。 结论 由于交换机聚合模式配置问题,导致负载均衡做链路健康检测时,始终有一条链路检测故障,链路状态在故障和健康状态频繁切换,导致当另外一台设备监视器恢复健康状态时,便立即发生的主备切换。 负载均衡双机健康检测及高可用原理说明 1、链路健康检测 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps6.jpg 使用ping进行健康检测时,以以上配置为例。每5秒发起一次ping测,当连续超过三次ping测,下一秒即认为设备链路故障。故障检测超时时间为15秒。一般情况,为避免由于链路网络不稳定导致频繁检测故障。使用推荐配置即可。建议结合插拔网线做健康检测。(注:备机不会主动发包探测,只有主机会主动发包探测) file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps7.jpg 2、主备切换机制说明。 (1)当启用故障切换时,根据条件,可选择任意设备故障时切换,或任意X个故障时切换。本次测试检测任意一条链路故障则进行切换。链路故障的判断标准以链路健康检测配置为准。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps8.jpg (2)故障切换高级配置,设备同时检测本端及对端健康状态。自动清楚故障,为当备机业务监视器为故障状态时,等待配置的时间后监视器自动恢复成健康状态。 以下图配置为例,若主机和备机有一个接口始终为故障的状态,备机等待5分钟后,监视器状态恢复成正常状态。此时发生主备切换,备机切换成主机,由于备机切换成主机后,备机主动发包进行健康检测,若健康检测故障,则监视器恢复成故障状态,此时原先的主机监视器状态还是故障状态,无法进行主备切换。等待5分钟后,主机监视器自动恢复成健康。才能再次成功切换主备。此情况会导致当始终有一条链路故障的时候,每隔5分钟会进行一次主备切换。 当监视器级别只选择一个(本端或对端时),当主机故障,备机切换成主机后,由于只监视一端,即时主机监视器由故障恢复成健康,原先的主机也不会重新切换回主机,这种配置可以解决由于有一条链路接口故障,而导致频繁主备切换问题。但是这种配置,即使主机故障恢复,备机正常也不会触发切换。只有当设备接口状态发生改变时才会触发主备切换。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps9.jpg (3)保护机制,当备机监视器状态为故障时,主机发生故障会先触发切换动作,但不会成功切换到备机。日志显示切换失败,原因为备机监视器故障。只有当备机监视器状态恢复成健康,才能成功切换。 file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps10.jpg 3、配置建议 (1)设备主备模式部署时,若有多条链路,建议业务口与交换机做聚合交叉互连。为防止当有一路链路始终故障时频繁发生主备切换,监视器级别为只检测一端(本端或对端)。通过交叉互连可防止,当主机所连的交换机故障时,无法切换到备机,导致业务故障。只有当接口状态发生变化时才进行这边切换。 (2)当AD接线模式为口字形时,监视器级别需要选择监视本端和对端。 AD新版本解决链路始终故障导致频繁主备切换问题。 |