“当前已有100+用户参与投稿,共计发放奖励100000+“
【发现问题】
超融合集群出现存储网络丢包,导致虚拟存储一直同步,期间一键检测功能全部报错。(后续了解虚拟存储数据同步时,一键检测功能不准确,不建议使用) 【影响及范围】 目前为新建集群,暂时没有上线业务,影响后续业务上线。 【解决思路】
首先怀疑光模块、光纤跳线接触等问题 【处理过程】
1、一体机,131主机存储私网丢包严重,分别与132. 133 134主机都有丢包,存储私网配置为单链路交换模式,交换机两台做的堆叠; 2、ifconfig查看HCI drop包没有增加,更换131主机所接交换机网口后恢复; 3、ifconfig ethx 分别查看两台主机的存储私网,没有没有出现drop包; 4、后台快ping 10000个包,丢包率为0; 5、后发现131主机和134主机存在丢包,查看主控vs_check_net_stata确实有134主机的丢包日志,丢包率为1%-3%; 6、将134主机所接交换机网口从13口换到了18口进行了更换,继续观察; 7、三天都没有出现丢包情况,后续若出现可以尝试更换光模块; 8、协调信锐工程师排查,反馈出现131主机和134主机丢包告警,现场不方便拔线,通过交换机上分别downeth6和eth7所接交换机的网口,down掉一个网口就不会出现丢包情况,推测为光模块问题,可以通过更换两端的光模块观察下; 9、更换两端光模块后依然还是有丢包情况,丢包率15%-18%,且有丢包日志产生,拔掉一个网口不丢包; 10、将正常的133主机和丢包的134主机的eth7存储口互换,没有丢包情况,再将另外一个eth6互换后,丢包现象立马出现。两主机网口保持不变,互换光模块和光纤,丢包还是随主机走,暂定是134主机导致; 11、协调服务器硬件研发介入排查服务器,网口硬件信息是并没发现错误信息; 12、现场协助研发进行排查,通过抓包定位是由于131,132,134主机的存储网卡为inter710系列网卡,会主动发送lldp报文,导致mac飘移,从而产生丢包。 【最终结论】 经过信锐研发和某公司研发共同排查分析,由于集群虚拟存储采用单交换机链路聚合,交换机做堆叠,其中三台主机的存储网卡型号为intel710系列网卡,会发送lldp包具备主动发送lldp报文的能力。存储网口A口(macA)和B口(macB)分别接到交换机的端口C口和D口,A口发出了以macB为源mac的lldp报文,交换机根据2层包头,将该超融合B口的macB学习到C口,造成超融合的macB在交换机上漂移。原本发往D口的数据包,因为macB漂移到C口,导致数据包发往C口,造成丢包。。
【解决方案】 为了确保业务不受影响,目前研发已经将intel710系列网卡关闭了lldp功能。后续3.0工具巡检后全部恢复正常。
|