#原创分享#超融合集群出现存储网络丢包处理过程
  

灵峰气韵 12143人觉得有帮助

{{ttag.title}}
“当前已有100+用户参与投稿,共计发放奖励100000+“




【发现问题】

超融合集群出现存储网络丢包,导致虚拟存储一直同步,期间一键检测功能全部报错。(后续了解虚拟存储数据同步时,一键检测功能不准确,不建议使用)
388885fc7392acf086.png
101515fc739343ce50.png
240795fc7393ee7163.png
【影响及范围】
目前为新建集群,暂时没有上线业务,影响后续业务上线。
【解决思路】

首先怀疑光模块、光纤跳线接触等问题
870895fc739b57799b.png
872245fc739c1b2f70.png
【处理过程】

1、一体机,131主机存储私网丢包严重,分别与132.  133  134主机都有丢包,存储私网配置为单链路交换模式,交换机两台做的堆叠;
19525fc739dae92a5.png
2、ifconfig查看HCI drop包没有增加,更换131主机所接交换机网口后恢复;
3、ifconfig ethx 分别查看两台主机的存储私网,没有没有出现drop包;
4、后台快ping 10000个包,丢包率为0;
5、后发现131主机和134主机存在丢包,查看主控vs_check_net_stata确实有134主机的丢包日志,丢包率为1%-3%
6、将134主机所接交换机网口从13口换到了18口进行了更换,继续观察;
7、三天都没有出现丢包情况,后续若出现可以尝试更换光模块;
8、协调信锐工程师排查,反馈出现131主机和134主机丢包告警,现场不方便拔线,通过交换机上分别downeth6和eth7所接交换机的网口,down掉一个网口就不会出现丢包情况,推测为光模块问题,可以通过更换两端的光模块观察下;
9、更换两端光模块后依然还是有丢包情况,丢包率15%-18%,且有丢包日志产生,拔掉一个网口不丢包;
10、将正常的133主机和丢包的134主机的eth7存储口互换,没有丢包情况,再将另外一个eth6互换后,丢包现象立马出现。两主机网口保持不变,互换光模块和光纤,丢包还是随主机走,暂定是134主机导致;
11、协调服务器硬件研发介入排查服务器,网口硬件信息是并没发现错误信息;
12、现场协助研发进行排查,通过抓包定位是由于131,132,134主机的存储网卡为inter710系列网卡,会主动发送lldp报文,导致mac飘移,从而产生丢包。
772135fc73a0445c4d.png
【最终结论】
   经过信锐研发和某公司研发共同排查分析,由于集群虚拟存储采用单交换机链路聚合,交换机做堆叠,其中三台主机的存储网卡型号为intel710系列网卡,会发送lldp包具备主动发送lldp报文的能力。存储网口A口(macA)和B口(macB)分别接到交换机的端口C口和D口,A口发出了以macB为源mac的lldp报文,交换机根据2层包头,将该超融合B口的macB学习到C口,造成超融合的macB在交换机上漂移。原本发往D口的数据包,因为macB漂移到C口,导致数据包发往C口,造成丢包。。

【解决方案】
为了确保业务不受影响,目前研发已经将intel710系列网卡关闭了lldp功能。后续3.0工具巡检后全部恢复正常。
304515fc73a3f3a293.png

打赏鼓励作者,期待更多好文!

打赏
21人已打赏

QI 发表于 2020-12-31 17:07
  
感谢楼主分享,最近识别到HCI在对接单交换机链路聚合时,发现交换机无法处理HCI发出的LLDP报文,目前已向全体工程师发布预警,处理方式就是联系400关掉LLDP的报文啦~~
阿飞007 发表于 2020-12-3 18:46
  
现在的新一体机都是这个网卡是不是都有这个问题呢? 需要将intel710系列网卡关闭lldp功能
新手078326 发表于 2020-12-3 19:26
  
感谢分享
新手517842 发表于 2020-12-3 19:31
  
楼主分析的很好
新手899116 发表于 2020-12-3 19:38
  
感谢分享
十一。 发表于 2020-12-4 09:12
  
好家伙提前踩雷了 谢谢老哥
新手442711 发表于 2020-12-4 10:35
  
lldp关闭 涨知识啦
新手520146 发表于 2020-12-4 10:42
  
这个现场调试人员得多注意下
酒慰风尘 发表于 2020-12-6 18:03
  
楼主分析的很详细,不错的实战经验,小白用户一看就懂,非常好的技术干货帖,顶一个!
LinYee 发表于 2020-12-7 09:34
  
老哥优秀
发表新帖
热门标签
全部标签>
每日一问
技术笔记
信服课堂视频
GIF动图学习
项目案例
产品连连看
在线直播
安装部署配置
新版本体验
专家分享
技术咨询
功能体验
答题自测
SANGFOR资讯
技术圆桌
技术顾问
每日一记
SDP百科
排障笔记本
畅聊IT
原创分享
产品预警公告
测试报告
运维工具
专家问答
MVP
网络基础知识
升级
安全攻防
上网策略
日志审计
问题分析处理
流量管理
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
信服故事
标准化排查
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术

本版版主

203
120
129

发帖

粉丝

关注

本版达人

山东_李广贝

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人