本帖最后由 伞兵一号lbw 于 2022-12-15 11:13 编辑
一、问题背景描述 1、11月19日,9:31 客户反馈私有云访问阿里云频繁丢包,随即接入排查 1、之前根据需求在下一代防火墙设置了针对网段的流控设置,针对34.0网段访问外网最大上下行流量为30M;当内网网段对外访问流量大于30M时候,就会触发流控,导致访问外网出现丢包 2.2问题闭环解决方案
1、调整流控策略,增大34.0网段访问外网的流量,调整为100M;后续跟客户沟通重新调整流控带宽,防止出现带宽跑满导致卡顿现象 2、取消流控策略 1、9:31 客户反馈私有云访问阿里云频繁丢包 2、反馈192.168.34.35机器ping哪里都丢包 3.2问题分析定位
1、登录云上测试机器,ping阿里云正常;查看云主机系统负载和IP带宽监控,暂未发现异常;防火墙安全日志未见异常 2、登录异常服务器,进行ping测试——排查是公网线路异常还是集群虚拟网络问题 (1)ping网关正常
(2)ping百度丢包
(3)ping虚拟网络出口ip丢包 103.213.97.6 3、检查平台是否有IP冲突,并且对虚拟机网卡进行重启;现象依旧
4、虚拟机更换运行位置依然丢包(把ecs迁移至其他物理机,此物理机上的ecs没反馈丢包);从44节点迁移至27节点——排查物理机是否出现异常 5、对租户的虚拟网络设备进行抓包分析,虚拟机访问外网流量路径如下:虚拟机——子网交换机——内网路由器——下一代防火墙——出口交换机——出口路由器
(1)子网交换机抓包分析——发现请求包有发出去,但是没有收到回应包,说明子网交换机是正常
(2)内网路由器抓包分析——发现请求包有发出去,但是没有收到回应包,说明内部路由器是正常
(3)出口交换机抓包分析——icmp正常,有请求包和回应包响应 (4)出口路由器抓包分析——icmp正常,有请求包和回应包响应 (5)分析内网路由器——出口的流量有异常,登录防火墙进行检查 7、临时把异常主机的ip进入白名单后,主机不丢包了;怀疑防火墙功能失效 8 、协调防火墙专家一起排查,发现34.0 的流控策略带宽跑满了, 导致访问有丢包现象;
9、查看34.0网段的虚拟机流量,存在带宽大于30M的情况;把流控调整至100M,访问恢复,不丢包 4.3闭环措施 1、跟客户沟通重新调整流控带宽,防止出现带宽跑满导致卡顿现象
2、针对某些主机ip取消流控策略 |