本帖最后由 Fly、 于 2022-9-5 14:49 编辑
8月的某天到客户现场沟通网络现状和新的需求,割接失败回退方案,计划是中午吃饭时间割接。
Top1网络现状
出口1-用户区 拓扑:路由器-三层交换机-二层交换机-用户(用户区也有服务器)
出口2-服务区域(业务) 拓扑:路由器-二层交换机-服务器
Top2需求 AF替换原有(服务器区和用户区)出口网络的路由器,防护服务器和用户拓扑如下
Top3 整理好需求后,核对型号,上电,更新授权,配置防火墙。
1、基本网络配置(详细配置此处省略)吐槽下(最多的配置是端口转换,几十条也不算多,一条一条核对,保证不出错) 2、安全策略(详细配置此处省略) 3、中午吃完饭,设备切换成功,网络没什么大问题,(测试业务已经正常)准备收工回家了。下午3点了,此时,却不知业务已经出现问题,不能访问了。跟客户沟通后争取了半个小时的排查时间,赶紧联系了400小哥进行排查,经过一阵排查也没找到问题的原因,就把防火墙下架了 回退了。 Top4故障现象:
业务内网的端口通,公网的端口不通,部分服务器也上不了网。
导致业务无法正常访问,自己进行了一个初步排查,测试内网端口通,就没想到服务器上会有问题,结果就导致没找到原因,还怀疑到防火墙是不是因为改了架构引起的,客户下班后,联系了400小哥进行排查,各种抓包分析,也没找到原因,一直查到晚上8点,也没有结论,现象还是:业务内网的端口通,公网的端口不通,部分服务器也上不了网。。就跟客户沟通,说明天重新在割接一次,然后就回家了。 Top5第二次割接 第二天,还是中午的切换设备上架,然后400联系了研发排查了,查了防火墙的各种日志,结论是防火墙正常转发没有问题,确认了防火墙是正常的之后,期间也重启过服务器,还是没解决问题,就到客户服务器上去看了下,服务器ping网关不通,arp也学到了,就判断为网络层面问题,查看了服务器装了一款为安全狗的软件,直接判断AF内网接口是arp攻击,进行了一个拦截,所以导致服务器无法进行网络的正常数据转发,把退出安全狗后,业务就正常了。到此该问题就闭环了。此处有个问题想不明白,原来路由器的arp,安全狗为什么不拦截呢?
总结: 本来很简单的一个网络场景,搞复杂了,还怀疑防火墙有问题,但结果就是一个网络层面的问题,所以每个客户的网络和业务情况还是很不一样的,也提醒大家,在实施的过程中,一定要很了解客户的情况,在配置上一定要很细心,才能保证割接顺利。
PS:网络故障排查才是检验一个网络工程师能力强弱的标准。
|