本帖最后由 魏少明明明明 于 2021-11-18 16:33 编辑
原拓扑图:H3路由器-核心交换机 (一条专线+一条拨号100.x的二级拨号地址) 新上架防火墙拓扑图:防火墙-核心交换机 (一条专线+一条拨号100.x的二级拨号地址)
这里有使用到DNS透明代理:
区别:DNS透明代理内网无感知;只开启DNS代理服务的话,内网的DNS地址需要指向防火墙
1. 问题现象
客户反馈每天早晨8点-8点班周期性卡慢,如打开浏览器,打开网址,出现无法响应;
2. 问题根因推断 a. 外网网络存在不稳定,不响应DNS请求报文的情况。
3. 建议解决方案 a. 联系运营商协助解决网络异常问题。 b. 协调备机,备注防火墙使用另外型号网卡
以下是处理思路;
A:先排除内网因素,内网PC长ping路由器和防火墙网络都连续,内网无异常; B:由于持续了两周卡慢,客户回退回H3路由器,网络正常访问; C:客户已经拨打过两次运营商电话,报障,运营商上门测光衰,测速率都是正常;换过光猫/换过宽带账号/该宽带给另外张网络使用都正常 ---一切矛头都指向防火墙有问题 D:由于内部有案例,可能是网卡兼容性问题,更换防火墙后,排出硬件问题,网络仍然周期性卡慢; E:对比防火墙和路由器配置,以下是内容,确认一致;网络还是卡慢; ①mtu 1488(对齐配置)
②tcp mss 1024(对齐配置)
③免费arp 5s(对齐配置)
④开启dns透明代理(策略调优)
⑤关闭异常包检测(策略调优)
F:给防火墙进行打流测试,经测试,防火墙在当前流量拨号1G的情况,无任何问题,使用电信客户端测速也能达到; H:客户不愿意配合再次拨打运营商电话,提供联系方式,我们自己沟通,经沟通,运营商技术反馈:别的厂区也有类似情况发生,修改了一级拨号地址以后,恢复正常,他尝试帮我们提交工单,修改一级拨号地址
----综上所述,一切变量相同的情况下,更换拨号为一级拨号地址后,第二天客户网络恢复;
4. 问题分析过程 a. 确认问题时间点 根据客户截图,问题发生在2021年11月16号上午8点05分附近。
b. 检查防火墙资源负载情况 检查防火墙的CPU使用较空闲,空闲值%idle字段维持在80%以上。
检查内存的使用情况,free字段空闲值700多M,无异常波动的情况出现。 检查后台连接数,维持在9000附近,无明显异常的波动。 检查每分钟平均流量情况,8点附近、8点45分、9点20分附近,偶尔会有流量超过100Mbps的情况出现。 c. 检查客户当时关键报文的情况 这里获取公网口eth1口的报文进行分析,选择了带有PPPOE头部的报文进行分析。 可以观察到8点03分50秒和51秒的DNS请求报文无响应包,直到54秒重新请求后才有响应。 当点击网页时,域名解密卡慢,会造成打开网页卡慢的情况。
继续往下检查8点03分58秒时,也出现了重传dns请求的情况。
再往下追踪,可以看到一直不响应某个DNS请求的情况。
d. 检查网络测速的情况 使用中国电信官方客户端测速,依然会出现上传异常0Mbps的情况,客户是2级拨号地址,100开头的;(后面查出是笔记本网卡问题,已排除该推测)
e. 检查8点附近ping监测丢包率情况 7点到8点之间,外网口丢包率在1.3%
8点到9点40分附近,外网口ping探测丢包率在4.3%,明显太高。
f. 小结 综上,目前考虑外网线路不稳定的几率较大,需联系运营商协助排查。 |