一、背景 客户网络环境,三个路由器-绿盟IPS-AC(三网桥)-交换机-AD-内网核心,在11月11日客户反馈AD的3条外网线路同时中断,查看AD日志只是提示了监视器ICMP超时,客户取消了链路检测后,网络恢复正常。当初客户给出的拓扑是路由器-交换机-AD-核心交换机。取消检测后网络正常,说明外网线路正常,查看交换机日志没有网口up和down的日志,也没有告警日志。客户怀疑AD有问题,我们也没有有力的证据说明没有问题,只能设置一个循环抓包脚本,查看链路中断是否AD没有正常发送探测包。至此走上了苦兮兮的道路。 二、对象 用于客户的运维管理员 三、解决过程 1、11月19号客户反馈3条外网线路又同时中断,抓紧时间去客户处,取出数据包好好分析一下,结果表明在链路中断的时候,AD发出去ICMP的探测包了,但是对方没有回应。 2、给客户说明情况,并非AD没有发送ICMP包,是对端没有回应,但是客户说为啥去掉AD的链路监视器,网络就变正常了,内网电脑ping地址也能正常通信,为啥呢,为啥要拦截我大AD的地址,唉接着去排查原因,仔细看11月11号和11月19号链路中断的时间,发现一个规律,每次都是中断5分钟左右。 3、如果是AD或链路原因时间应该没有这么巧合,应该是有安全规则或者是安全设备拦截了数据,再次合适前面的设备,发现有AC和绿盟IPS,有希望,首先查看IPS的日志,没有任何日志,好痛苦,再去看AC的日志。发现控制策略就限制了一个teamviewer。 4、应用控制策略没有拦截,在查看AC和AD的DOS防护,发现还是没有任何拦截,what,还有什么原因。 5、在思考的过程中,发现AC右下角有个提示,有共享检测,咿,难道是共享给拦了?呀,啥都没有。 6、唉,此时此刻又怀疑是路由器有多个地址,难道是有部分地址不能去ping公网网关,在落实,发现只有一个公网地址,唉又排除了这种可能。 7、此时我开始怀疑一切,还有啥原因呢,不行在去AC上面看,发现AD的地址被AC的代理检测模块给封锁了,时间刚好吻合,现在终于找到问题原因,这个问题解决了,随之又来一个问题,为啥AD会被判定使用了代理工具,改排查过程下次分享。 四、总结 总结来说心好痛,当初检查了AC的控制策略、共享策略和用户绑定都没有问题,以为就没有模块拦截了,失之毫厘,差之千里,后面要细心呀,唉。 |