问题现象: 超融合平台意外断电,重启后发现有两台主机离线了,如下图: 问题原因及解决步骤: 首先查验保证业务系统正常后,开始排查离线原因:1、没启动;2、网口坏了;3、网线没接好;4、连接的管理交换机有问题。 1、接上kvm后发现两台主机均已启动: 2、查看网口发现其中一台的网口都亮,排除断电导致网口坏了的可能,另外一台的发现是管理口不亮,难道真是坏了? 3、找个笔记本接到设备设备上一体机IPMI接口默认出厂IP为: 1*2.1**.1*.1*,电脑直连IPMI接口,在浏览器地址里面输入地址即可登录默认用户名密码均为**进去发现日志里没有啥异常 4、接笔记本配置同网段的地址1*2.1*8.1**.xx,ping发现通,排除了网口坏的可能,返厂的话那多麻烦。管理交换机上的口当时聚合的,同时坏的可能性不大。 5、把两台服务器的网线都重新插拔了一下,服务器重启了一遍发现还是不亮,定位到管理交换机的问题。 6、 找技术查找管理交换机的保留地址19口进去看看配置,http://1*2.1*8.1.*默认用户名密码均为**7、根据标识找到连接两台主机对应的管理交换机上的口,21和22号口对应的那台不亮的交换机,发现口自动注销了,重新UP下,一台恢复正常。 9和10号口对应那台亮的交换机,发现9口10口所在的聚合口VLAN配置的是200,而我之前明明是100,估计是上次扩容配置完后没有重启交换机配置没保存,这次意外重启后配置初始了,找到原因就好办了,把9,10口的VLAN改成100后,也恢复正常,所有灯都正常。
8、最后将飘到其他服务器上的虚拟机再分配下,迁到之前离线的两台主机上。 完事!
建议与总结: 因业务需要对网络设备有配置调整的时候一定一定一定要保存write-exit配置后退出,条件允许的情况下重启相关设备检验下是否生效,以确保万无一失。 为防止再次过载意外断电,单独把超融合平台的线路剥离出来接到UPS上。 |