本帖最后由 新手951387 于 2023-5-25 14:06 编辑
一、问题现象
用户前一天反馈说有3台云桌面自动关机了,当时想着检查定时关机策略,并没有看到有类似设置,客户也没有深究,就不了了之。第二天中午客户突然打电话说很多盒子用户在使用过程中断开重启,我心想着,重启?盒子重启?安卓系统故障?后来用户侧发了截图才发现是盒子跟VDC断开连接了(问题现象一定要再三确认,不然一开始就是错误的思路) 正在使用桌面云的用户直接断开连接 新开机的用户显示连接不上VDC 但是部分用户反馈使用正常
二、问题分析与排查 尝试登录VDC后台,发现无法连接。进入VMP后台看到很多虚拟机有磁盘IO告警包括VDC 用户侧网络结构比较简单,没有专门的服务器交换机,两台桌面云服务器直连核心,检查核心上的日志,未发现有地址冲突、端口异常等告警,并且远程主机可以通VDC地址和端口,排除网络层问题。继续检查虚拟存储,运行正常,再查看各磁盘运行状态,好家伙,两个磁盘容量满了,VDC正好在这两个磁盘里面(二副本策略下,一个是存源数据,另一个是存备份数据) 赶紧联系400进后台手动迁移一台关机的虚拟机到空闲磁盘 经过漫长的迁移等待,终于释放出了空间,VDC恢复正常,该磁盘下的虚拟机恢复使用
三、总结 由于两主机集群的数据自动平衡能力几乎为零,再加上单磁盘下存在过多大容量虚拟机沾满了该磁盘空间,该磁盘数据无法写入,影响到了VDC的正常运行,所以导致:1.该磁盘下的虚拟机出现IO异常导致挂起,用户侧效果为断开连接 2.VDC挂起,未连接的用户无法新建连接,已连接的用户可以正常使用。 短期的解决方案是手动将虚拟机平衡到各个磁盘。长期解决方案就是组建三主机集群,启用数据平衡功能 |