1、看流量图,在异常时间点有部分流量走了4-5的备用网桥。
2、客户反馈断网时ping外网不通。取之前抓包脚本抓下的icmp包分析:
(1) 下图为网桥0-2包,可以看到有部分icmp通,部分不通。但0、2包是一致的,AC做了转发,是没收到回包导致不通。
(2) 下图网桥4-5的包,异常时有部分icmp包走了4、5,5口上面是备的防火墙,所以应该是都不会回包的。AC4、5口包一致,没有拦截。
(3) 异常时ping不通,也可以一定程度上反应当时的网络链路状态存在异常。
5、研发排查日志后,推测与之前遇过的已知问题类似:AC两对网桥做主备链路时,下联交换机可能发送了探测包到了备网桥,备网桥会由于拦截等原因伪装回复rst包,导致交换机的备链路能够学到防火墙的mac,从而部分数据转发到了备网桥。而备网桥上联防火墙不工作,就会全部丢包。这个可以通过实施优化包KB-AC-20191210-101-05解决,通过判断网桥的流量过小,过小的话对网桥搬包,就不会回复交换机。