提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

基础排查-步骤一:双机每隔五分钟来回切换案例分享

|

问题描述

AD7.0.4版本设备,双机模式部署在网络出口,某天发现内网电脑上网断断续续,最终定位发现AD每隔五分钟就会主备切换一次。

有效排查步骤

1、检查双机模块的相关配置,发现切换条件检测了出口防火墙互联WAN链路和内网口,判断条件是至少,其他都是默认配置

2、查看原主机AD1的服务日志,防火墙互联的WAN口当时出现故障,导致该线路健康检查到超时离线,所以触发了双机切换。

3、同时在原备机AD2上查看日志,也可以看到对端AD1因为链路故障导致切换,AD2由备机变为了主机。


4、AD2变为主机后,WAN口的健康检查也是故障的,但是没有及时切换到AD1,是因为AD2认为AD1此时也是故障的所以没触发双机切换, 但等到自动故障清理时间(默认5分钟)后,AD2清除了AD1的故障状态,由故障变为健康,AD2比较AD1而言,AD1的状态比AD2更好,所以又会双机切换到AD1去,服务日志如下:

5、由于备机的链路故障状态无法通过发包来检测(备机不会发包),主机只能等待故障时间到期后,自动将对端设备认为是健康,然后切换过去,从而周而复始的五分钟重复一次该切换动作。

根因

备机业务口默认不能往外发包检测链路的健康状态,所以主机无法实时知晓备机的检测状态,主机只能故障检测时间到期后,自认为备机此时的状态应该是健康的,除非是备机的网口down才可以同步给主机。

解决方案

基于以上链路故障导致的切换,为防止来来回回切换,只需要将一台设备的监视器级别检测去掉即可,去掉检测的那台设备只有网口down掉才会触发切换。

建议与总结

监视器检测级别(也叫强弱监视器)是AD7.0.3版本新增的,以前版本不存在该问题。

我要分享
文档编号: 221709
作者: admin
更新时间: 2023-05-05 10:37
适用版本: