1、背景 刚实施的一套6主机桌面云集群,在服务器重启后会出现服务器无法正常启动的问题
2、现象及处理过程 现象一:开机后长时间(20分钟以上)无法正常启动,接上显示器后可以看到6台主机显示均如下 处理过程:这个进程在启动过程中会关联到集群网络,如果集群网络不稳定就会出现这种情况,应急处理方案如下: 将所有主机的所有网线全部拔掉,只留电源线,再开机,开机后还是会卡在这个状态一段时间,但是在大约5分钟后会进入下一个状态,在所有主机正常开机后,再重新将网线接上,组建集群。 该方法只能用于应急,根本原因还是集群管理网络不稳定,需要排查网络因素。
现象二:正常开机后,发现虚拟机中有部分虚拟机出现网络大量丢包、网络不通的情况,且经过确认,都在同一台主机上,此时已经可以基本确认是这台主机的网络出现了问题。
处理过程,首先检查服务器主机管理口与交换机两端的聚合口是否选择正确,在此次的问题中,最终的原因就是在交换机上的聚合口与主机上的聚合口没有对应,对比其他主机的配置可以断定是部署过程中交换机的聚合接口选择错误。
现象三:在该环境中,还使用了极域软件,使用过程中发现有个别的虚拟机无法正常下发屏幕广播,且会在被控状态和非被控状态来回跳转,同时也是这些主机会出现现象二,在最初的排查中,我将这两个问题判断成了两个问题,甚至怀疑是虚拟交换机异常导致的丢包,在最后发现交换机配置错误时才发现其实是同一个问题导致的现象。
3、处理结果 将交换机配置修改过来之后,虚拟机屏幕广播也正常了,网络也不丢包了,数据也通畅了,主机重启也不卡了,人也能下班了
|