本帖最后由 魏溢森 于 2023-5-12 11:49 编辑
本期给大家分享一下最近处理的超融合对接信锐交换机聚合口异常的问题
这次处理的问题也是个历史性遗留问题,下面给大家展开叙述一下。
问题描述 时间回到2022年--- 问题发生时是一次机房的突然断电,然后超融合的网络发生中断,等待机房电源恢复后超融合的网络没有及时恢复,客户等待了一段时间还是无果,售后工程师不久后赶到现场和多方二线联合排查,最后发现是超融合聚合口的问题,聚合口跑任意一根线网络都是正常的,但是只要两根线路一块插入就直接断网。当时的售后工程师将聚合口删除重新做了一遍聚合口正常网络正常,但是只要设备重启或者断电就一定会复现这种现象,后面研发给出定制补丁包才将问题解决。
问题排查 把时间线拉回现在--- 最近五一期间过后客户说有部分虚拟机的网络总是丢包或者间断性不通,大概ping个6.7次通然后就超时,排查发现这些虚拟机都运行在同一台超融合主机上面,查日志发现平台上面有超融合主机离线的告警,这让我立马回想起当时的问题,先把这台主机业务聚合口拔掉一根线恢复网络,随后我联系到当时处理问题的同事,按理说打过补丁包不应该在出现这种问题,他建议我重新做一下聚合接口,或者把交换机mlag改成堆叠估计也能搞定,重新做聚合口的这种方式治标不治本,做堆叠的话业务影响又太大,还是需要把问题上升反馈一下看看400专家同事有没有更好的解决办法
问题处理 超融合400工程师说这个需要排查交换机那边配置是否有问题,大概率应该不是超融合侧的问题,我赶紧找到信锐的400工程师,果然苍天不负有心人,他说可以升级交换机最新版本3.3版本来解决这个问题,看来这个问题是已知问题,在新版本中已经得到解决。
问题总结 超融合对接交换机mlag聚合口产生问题,可以通过升级交换机版本至3.3版本解决该问题,因设备组建mlag所以升级时先升级备机在升级主机也不会影响网络,如果是ssu的升级包需要通过信锐升级工具来进行升级。 |