记一次超融合私网存储丢包的排查方法 怎么又丢包,第三方服务器扩容一台超融合物理主机,授权正常,全部按照设计图纸插线配置,怎么到了扩容虚拟存储时就会丢包呢,客户申请超融合产品线远程支持,他登录到后台,对存储私网地址进行ping测试,发现确实丢包,400同事让联系渠道处理,说需要渠道协助排查。接到客户的上门电话,我马不停蹄的连夜飞奔到现场,同时联系该同事,为了保证问题的顺利解决,跟主管沟通,必要时帮忙升级问题到研发,确保超融合存储丢包问题的顺利解决。 到现场后,看了400同事测试的结果后,我的想法和400同事一致,不是光模块的问题,就是光纤的问题;排查思路,超融合主机存储采用两台存储交换机独立运行,因为不是完全不通,8%的丢包率,确认单线路下两台存储链路的通信质量,让问题由繁入简,测试选用ping命令。 第一:拔掉第一条链路的光膜块,让400同事远程测试,结果不丢包,推测应是第一根链路中的光模块或者光纤存在问题,问题有迹可循。 第二:插上第一根链路的光模块,拔掉第二根链路的光模块,此时400同事测试存在丢包,更换物理服务器节点的第一条链路的光模块,让400同事测试此时链路通信正常,不丢包,问题已经变得明了。
第三:两条链路同时联通,400同时测试,不丢包,两条链路均正常,开始扩容虚拟存储, 虚拟存储扩容成功,将问题光模块交给客户,告知问题的具体原因,最终客户对深信服技术人员和我表示感谢,问题最终圆满解决。
说一下感受,遇到问题不要慌,排查问题的思路一定要有,最后感谢400同事的远程支持和客户对我的信任,感谢自己又一次解决问题,谢谢各位观看,希望能给到各位帮助。 |