本帖最后由 adds 于 2024-8-20 09:40 编辑
一、问题描述 1.1 问题 新旧设备切换后,网络访问异常,主要体现为VPN接入异常,早上一开始(9点上班前)接入正常,但过一会儿就异常,其他也有业务反馈异常。 1.2 主要现象 1)出,用户普遍访问互联网慢。 2)入,对外提供的服务响应慢。 3)流量,在10点左右出口流量应该在2G左右,目前实测1.5G左右。 之前人员介入:7月22日星期一张三、7月23日星期二李四、7月31日星期三李四。 在2024年1月切换试运行一周没有问题。在7月19日周五切换后,7月22日周一发现有问题。 1.3 时间 当前时间是2024年8月1日上午。 1.4 目前客户业务状态 自7月19日上线发现问题后,一直是排查-->上线-->下线-->再排查-->再上线的反复循环。 客户是某区政府,该网络区域设备为区总出口线路设备。 期间各路神仙轮番上阵,两个厂商均积极配合排查,十分重视客户,各厂商检查各自设备均没有问题,但就是一上线就有问题,厂家销售、客户互相扯皮。 今天客户明确说了,查不出问题来,两家都把设备拆回去自己测,测试没有问题再拿回来,客户的业务环境不允许 再这样测来测去。
二、处理过程 2.1 梳理网络拓扑 当前网络现状。以深信服AD设备为节点,上下联设备情况如下。 1)下联: AD设备下面联接FW,FW下联IPS,IPS下联AC,AC下联核心交换机。 AD-->FW-->IPS-->AC-->SW 2)上联: AD设备上联DDOS,DDOS上联SW。 SW-->DDOS-->AD 3)网络拓扑 注:非客户真实现场拓扑,该图为后期根据客户描述自己画的。接口、IP、设备型号均为随机写的。 4)涉及厂商 深信服、***辰 深信服设备为AD负载均衡和AC上网行为管理;***辰设备为DDOS设备、FW、IPS。
2.2 排查方案 排查方案是昨天已经确定的并且已经在进行了。 即拔线将设备从网络中移除。 1)将AC上网行为管理从网络中移除。 这个AC在7月31日晚上已经从网络中移除了。 但是在8月1日上午故障依旧,所以,不是AC导致的问题。 2)将IPS从网络中移除。 客户单位的流量在中午时分也要在1个G以上,平常切换设备都是放在晚上及周六日。 放在中午这个一般是不允许的。 看一下中间12点50分切换后的流量。 切换后,网络故障依旧。 3)将DDos设备从网络中移除 移除后网络连接情况。 运营商接入交换机-->AD-->***辰FW-->内网核心交换机 目前的网络结构已经很简单了,就一个出口和一台墙。但问题还是存在。 4)将FW从网络中移除。 移除后网络连接情况。 运营商接入交换机-->AD-->内网核心交换机 现在就一个AD负载均衡了。 在网络切换成功后,业务访问正常。 一直到下午3点,网络依旧正常。 至此,排查结束。
三、根因 3.1 故障原因 第三方厂商FW导致的业务中断。 推断是某条安全策略引起的,如果设置的策略有阈值,超过阈值就会引起后续的流量不正常。
四、解决方案 后续第三方厂商配合客户排查,我方未参与。
五、插曲 5.1 现场工程师跑路 我到达客户同志的时间大概是9点30分,第三方厂商比我还要晚。我们称现场工程师为王五吧。 上来一顿查。 然后到11点半左右,王王跟客户说,我这块查完了,我们设备没有问题。如果没有其他的事,我就先走了。 我当时心里说,这哥们真勇。我给你点个赞。 客户说,你说你的没问题,他说他的没问题,那是谁的问题?为什么要你们都过来,就是要一起排查。查不出来,谁也不能走。 王五,我下午还有安排,已经跟客户那边都约好了。 客户,你下午的客户是客户,我就不是客户了。我的问题你给我解决了吗?你怎么证明你的设备没有问题? 王五,我从我的FW去ping下联核心交换机,延时小于1ms,去ping上联的AD,延时小于1ms。AD负载均衡去ping公网延时好几ms,那肯定不是我的问题。(感谢王五没有直接说是AD负载均衡的问题,起码没有直接把锅甩给我)。 客户像看傻子一样看着王五,你家设备到公网都是小于1ms的? 这是当时王五在客户电脑上操作,然后让客户截的图,然后让客户发群里证明自己设备是正常的截图,现在在群里还有。不要说我杜㯢,你让我编我都编不出来。 公网延时截图: 当天群里截图:
六、总结 6.1 经验总结 如果遇到这种多厂商在一起的场景,排查时间很长,但查不出来,挨个拔设备是一种很好的排查方法。 但现场有时有很多限制条件,比如,上面设备是光口,下面设备是电口,这就不好移除了;有的业务重要,不能随便移除设备。 还有最坏的情况,所有能移除的设备都移除了,还是有问题。那就只能闷头继续查了。 |