记一次CSSP安全资源池主机VxLAN网口丢包
一、背景 CSSP版本:4.0.12 ARM_B 客户反馈,HCI上面告警提示某主机VxLAN网口持续丢包,使用HCI自检会提示数据网口通信异常,持续下去可能会影响业务运行。
告警信息
一键检测 二、处理过程 1. 登录HCI的丢包主机后台,去用丢包主机的vxlan的地址去ping其它主机主机的vxlan地址,发现确实存在丢包现象。 2. 在丢包主机的后台,查看vxlan网口信息,发现确实是有大量的erro包数据。 show interface ethx
3. 需要进一步排查是软件操作系统层次的丢包还是物理设备硬件的丢包。使用命令查看 show interface ethx xstats
经过对error的分析,可以看到rx_error_bytes有丢包,然后连续刷新后,丢包数量持续增加。 这块就是对网卡层面的数据包的统计,所以初步判定是网卡层面的丢包。 处理方法:1、建议客户插拔该主机的对应网口的网线。 2、更换对应主机的网口的网线。 3、更换对应主机的网口的模块。 从简单到复杂的节奏去处理,经过客户插拔网线后,丢包情况没有出现。第二天观察无异常。
三、总结 丢包情况对于很多产品使用过程中都很有可能出现这种状况,那么这时候就需要先定位是操作系统软件层面的问题导致的,还是说是物理设备硬件层面导致,如果有方法快速定位,那处理起来就会得心应手。但是没有方法的话,那么只能去一步一步的排查问题,通过直连、过交换机、过其它设备等等去看丢包的位置,然后确定位置后,使用控制变量法,去单一的改变,继续排查。定位软硬件后,按先易后难的步骤继续排查即可。
|