本帖最后由 清风慕竹 于 2020-5-31 22:14 编辑
一、问题现象 2020年5月18日下午16点30分至18点30分左右,XX政府发现负载CPU上升,网口流量突增,节点节点连接数上升导致节点异常。访问XX网站出现异常情况。 二、问题影响 导致公网用户访问XX网站缓慢,甚至出现访问不通的现象。 三、问题原因排查 3.1、现场设备状态灯查看 现场进入登录设备进行排查,经初步设备亮灯状态判断,设备物理亮灯正常,红灯闪烁的为备机,红灯不亮的为主机,设备没有物理宕机的情况,使用直连的方式登录设备控制台继续排查。 设备里记录的应用控制策略数据处理日志,确认应用控制策略无异常,策略匹配正常,流量挂钩正常,截图如下: 在设备日志告警中,发现在17点56分36秒时链路监视器告警,经时间对比确认为现场拔线操作导致双机的切换。 打开CPU占用率表,发现16点15分左右,设备CPU偏高 对比同一时间的CPU记录,发现设备CPU利用率增大 对比查看同一时间业务口ETH1口的流量记录,RX与TX在一分钟内翻了6倍。 查看控制台节点监视器,发现在此时间段内,【新版业务网站】节点频繁超时离线 在此时间段内的节点状态,显示为【网络不可以】 查看并发连接数,看到峰值时并发数量为13501个,远远超出正常业务量的并发请求数目 此时控制台中实时网络吞吐量与设备CPU占用率。 综上日志告警及现场情况结合分析,问题原因定位外侧对负载访问量突增导致的负载设备承载量加大,在转发分发流量时负载下侧的节点服务器同一时刻处理不了突增庞大的请求,导致节点离线,业务访问异常。 |