本帖最后由 哒哒哒 于 2020-3-27 12:03 编辑
-------项目背景-------
上周五,工程师X工拿着一台墙到客户现场去测试AF,测试结束之后使用正常
------故障现象-------
本周一,客户反馈不定时断网,断网时间大概在5min左右,5分钟左右自己就恢复了
-------处理过程-------
第一天上午
客户反馈断网,由于设备在机房,暂时无法去设备旁边排查,所以只是在局域网内做了以下操作
1、ping防火墙的LAN口地址不通,telnet几个端口也不通
443----------WEB控制台端口
22345-------ssh端口
51111--------升级客户端端口
2、ping路由器(AF下联)的wan口地址,通的
3、初步判断问题在防火墙上,奇怪的是,5分钟左右,未做任何操作网络就恢复了,于是取出黑盒子日志交给400分析,分析结果为故障时候设备各项进程以及内存、CPU、接口等运行正常,建议客户更换路由器和AF之间的网线观察;
备注:AF如何取黑匣子日志
①以标准版本AF7.3版本操作路径示例:在【系统维护】-【技术支持工具】界面下载
②以标准版本AF7.4版本操作路径示例:在【系统】-【排障】-【技术支持工具】界面下载
-------来自:社区智能机器人
(我是真心的推荐大家使用社区的智能机器人的啊,几乎每个帖子都推,真的超级好用哇)
4、网线暂时未更换,继续观察
第一天下午
再次断网,处理过程同上,黑盒子日志结论依旧
结果分析:一天内出现两次这种现象,并且是在替换防火墙之后出现的,400分析设备运行状态也没得问题,这就比较诡异了,但是时间太短,客户一般都是恢复之后联系我的。
下一步处理建议:为了在有故障现象的时候及时登录设备进行故障排查,教客户在有故障现的时候第一时间打我电话,然后带个笔记本去机房直连设备看设备是否正常。
第二天
一大早,还在赶去上班的路上,电话响了,号码很熟悉,我就知道又断网了。果然,客户反馈断网4-5分钟,还没来得及做操作,又断网了
1、虽然恢复了,但是还是协调远程到客户设备上看了眼,在日志中心看到了一下信息
这下问题明确了,是11.2这个在发起DOS攻击,经客户确认,11,2这个地址是AF下面接的路由器的wan口地址(也就是之前的出口路由器,做了nat转换,用了AF之后,被往下移做了二级网关)
原因分析:内网以一个IP过来访问外网,会触发内到外的dos封堵的,这种NAT环境下不建议开启内到外的DOS。
2、还有一个问题,就是劝说客户去掉路由器上的NAT,但是客户说去掉NAT之后就无法上网了。
原因分析:
有NAT时候可以上网:内网路由到达路由器之后,匹配NAT,将内网地址全部转换成路由器的WAN口地址,也就是11.2,11.2这个地址是可以上网的,所以内网用户正常上网
去掉NAT时候无法上网:内网用路由到达路由器之后,继续查找路由表,但是路由器上写默认路由,所以数据包丢弃,所以内网用户无法上网。
有NAT时,对AF的影响:如果内网有NAT的时候,那么对于AF来说是无法识别到内网用户的真实的源IP的,因为所有的源IP都被转换成了路由器的WAN口地址,那么对于AF来说,其实内网就只有一个路由器,安全防护策略也都对这个11.2这个地址生效,无法有效的管控内网的真实用户。
解决步骤:
①在路由器上写一条默认路由,目的地址为0.0.0.0,下一跳为防火墙的LAN口地址
②在防火墙写回包路由,目的地址为内网各个网段,下一跳为路由器的11.2(WAN口)这个地址
效果反馈:
我的客户还是很给力的,修改之后测试上网正常,无测试效果图,有客户反馈
至此,故障解决
-------回访结果------
各位小伙伴,处理完问题记得回访下客户哦,确认问题不会再出现,回访可以选择电话可以选择通用聊天记录,因为这个问题处理完毕之后客户就没反馈过断网,但是为了体现我们的服务,还是关心了下,结果后面就没再出现过此问题
-------其他-------
肯定有小伙伴要问,既然新加了一台AF,为什么不把路由器替换掉?
因为这个项目不是我实施的哇,我只是解决故障而已,不过这种环境确实是复杂了,对于内网用户来说多了一层的路由转发,对于维护人员来说,多维护了一台设备,将网络复杂化了。但是,毕竟那台设备不是我们的,可能他有自己独特的功能。 |