一、问题描述
客户反馈超融合管理平台登录卡,并且三主机集群有两主机显示离线,虚拟存储显示故障,后面直接无法登录管理界面 二、处理过程 ①、联系客户用电脑ping 超融合服务器地址,ping完客户反馈是通的 ②、让客户登录超融合(目前主控节点还是正常,能登录),进系统管理--系统诊断,让主控节点ping离线主机ip,发现是能通的 ③、发现情况不太正常,不是我能解决的,将问题升级,联系400远程排查,400进后台,一顿命令输出,查看主机的状态,发现超融合的主机网口协商为百兆,问客户是否能去机房拔插一下主机网口,客户说机房离办公位置远,无法做拔插操作,于是和客户确认是否能后台down up网口,取得客户同意后,后台down up网口后,网口协商恢复成千兆,登录超融合管理界面,发现离线主机恢复正常,虚拟存储也恢复正常。 ④、查看告警信息,发现一连串的告警信息,将其余主机发生协商成百兆的网口后台down up后,确认恢复成1000兆后,查看有很多其他告警信息,和400确认都是主机离线后产生的,将告警全部手动确认。 三、根由 有一个管理口协商成100M 导致集群通信有问题,一般是网线松动,没插稳,或者硬件网线本身有问题。虚拟存储离线问题的话,只是界面状态可能看着有问题,实际存储是好的 四、解决方案 目前解决是手动down up这个协商成百兆的网口,让他重新协商成1000兆。后续还是建议找时间去插拔下 并且插稳。还不行就换一根网线。 五、总结 碰到这种问题,先自己排查一下,确定影响范围,确定问题故障位置,看能否解决,实在是需要后台操作,及时升级问题,别拖着客户时间。自己解决不了就及时上升。保证客户业务能及时恢复。 |