#原创分享#超融合集群出现存储网络丢包处理过程
  

灵峰气韵 34424人觉得有帮助

{{ttag.title}}
“当前已有100+用户参与投稿,共计发放奖励100000+“




【发现问题】

超融合集群出现存储网络丢包,导致虚拟存储一直同步,期间一键检测功能全部报错。(后续了解虚拟存储数据同步时,一键检测功能不准确,不建议使用)
388885fc7392acf086.png
101515fc739343ce50.png
240795fc7393ee7163.png
【影响及范围】
目前为新建集群,暂时没有上线业务,影响后续业务上线。
【解决思路】

首先怀疑光模块、光纤跳线接触等问题
870895fc739b57799b.png
872245fc739c1b2f70.png
【处理过程】

1、一体机,131主机存储私网丢包严重,分别与132.  133  134主机都有丢包,存储私网配置为单链路交换模式,交换机两台做的堆叠;
19525fc739dae92a5.png
2、ifconfig查看HCI drop包没有增加,更换131主机所接交换机网口后恢复;
3、ifconfig ethx 分别查看两台主机的存储私网,没有没有出现drop包;
4、后台快ping 10000个包,丢包率为0;
5、后发现131主机和134主机存在丢包,查看主控vs_check_net_stata确实有134主机的丢包日志,丢包率为1%-3%
6、将134主机所接交换机网口从13口换到了18口进行了更换,继续观察;
7、三天都没有出现丢包情况,后续若出现可以尝试更换光模块;
8、协调信锐工程师排查,反馈出现131主机和134主机丢包告警,现场不方便拔线,通过交换机上分别downeth6和eth7所接交换机的网口,down掉一个网口就不会出现丢包情况,推测为光模块问题,可以通过更换两端的光模块观察下;
9、更换两端光模块后依然还是有丢包情况,丢包率15%-18%,且有丢包日志产生,拔掉一个网口不丢包;
10、将正常的133主机和丢包的134主机的eth7存储口互换,没有丢包情况,再将另外一个eth6互换后,丢包现象立马出现。两主机网口保持不变,互换光模块和光纤,丢包还是随主机走,暂定是134主机导致;
11、协调服务器硬件研发介入排查服务器,网口硬件信息是并没发现错误信息;
12、现场协助研发进行排查,通过抓包定位是由于131,132,134主机的存储网卡为inter710系列网卡,会主动发送lldp报文,导致mac飘移,从而产生丢包。
772135fc73a0445c4d.png
【最终结论】
   经过信锐研发和某公司研发共同排查分析,由于集群虚拟存储采用单交换机链路聚合,交换机做堆叠,其中三台主机的存储网卡型号为intel710系列网卡,会发送lldp包具备主动发送lldp报文的能力。存储网口A口(macA)和B口(macB)分别接到交换机的端口C口和D口,A口发出了以macB为源mac的lldp报文,交换机根据2层包头,将该超融合B口的macB学习到C口,造成超融合的macB在交换机上漂移。原本发往D口的数据包,因为macB漂移到C口,导致数据包发往C口,造成丢包。。

【解决方案】
为了确保业务不受影响,目前研发已经将intel710系列网卡关闭了lldp功能。后续3.0工具巡检后全部恢复正常。
304515fc73a3f3a293.png

打赏鼓励作者,期待更多好文!

打赏
30人已打赏

QI 发表于 2020-12-31 17:07
  
感谢楼主分享,最近识别到HCI在对接单交换机链路聚合时,发现交换机无法处理HCI发出的LLDP报文,目前已向全体工程师发布预警,处理方式就是联系400关掉LLDP的报文啦~~
阿飞007 发表于 2020-12-3 18:46
  
现在的新一体机都是这个网卡是不是都有这个问题呢? 需要将intel710系列网卡关闭lldp功能
新手078326 发表于 2020-12-3 19:26
  
感谢分享
新手517842 发表于 2020-12-3 19:31
  
楼主分析的很好
新手899116 发表于 2020-12-3 19:38
  
感谢分享
十一。 发表于 2020-12-4 09:12
  
好家伙提前踩雷了 谢谢老哥
新手442711 发表于 2020-12-4 10:35
  
lldp关闭 涨知识啦
新手520146 发表于 2020-12-4 10:42
  
这个现场调试人员得多注意下
酒慰风尘 发表于 2020-12-6 18:03
  
楼主分析的很详细,不错的实战经验,小白用户一看就懂,非常好的技术干货帖,顶一个!
LinYee 发表于 2020-12-7 09:34
  
老哥优秀
发表新帖
热门标签
全部标签>
每日一问
技术盲盒
技术笔记
每周精选
干货满满
技术咨询
信服课堂视频
秒懂零信任
自助服务平台操作指引
新版本体验
标准化排查
产品连连看
安装部署配置
功能体验
GIF动图学习
玩转零信任
2023技术争霸赛专题
技术晨报
安全攻防
每日一记
深信服技术支持平台
天逸直播
华北区交付直播
社区帮助指南
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
上网策略
测试报告
日志审计
问题分析处理
流量管理
运维工具
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
答题榜单公布
纪元平台
通用技术
卧龙计划
华北区拉练
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV

本版版主

217
272
151

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人