场景前提 在桌面云教育行业的使用中,常常会部署这样一种场景
按照教室,给学生机创建虚拟机, 这种虚拟机 大多是还原类型的虚拟机,装一些教学软件,然后学生一批一批的来上课
最近碰到这样一个问题,某一个学校买了咱们的产品,他们有3个教室在上课,每当3间教室同时上课的时候,老师就会反馈特别的卡慢
起初常规排查了一圈,所有虚拟机全部开机,主机的内存压力也就跑到70%,内部存储是2W兆网络,而且到达终端的网络也是千兆,不存在网络瓶颈。 怎么看都不应该那么卡 后续开始监控老师上课时候的VMP平台
发现在上课的时候,本来平静的存储IO时延,突然就开始波动,而且波动持续将近40多分钟,正好整节课都在延时中 造成了不好的使用体验
后续询问客户,这个是 上课前有批量开机的动作
于是这边给客户做了每日的开机计划,让上课前虚拟机就保持开机
本来提前1小时规划进行开机动作 开机计划 对存储IO的影响也会持续很久,于是又继续调整
将开机计划的波动调整到上课前,但是发现了一个新问题
老师第一节课 没问题,但是上完一节课以后,下节课上课前,要进行虚拟机的重启,然后让虚拟机还原回初始状态
所以说用开机计划这种方式 ,是解决不了问题的
后来求助专家,深度分析卡慢原因,找到了根本的问题
这边当时部署的状态是这样的
每个教室 有50台虚拟机,然后使用1个模板进行派生
一共3间教室
专家发现,模板在后台主机的分布位置,及其不均衡,虚拟机重启,比对模板进行还原的时候,频繁的跟一块SSD硬盘进行读取,然后SSD硬盘的性能成为了瓶颈
后来给出了一个新方案,将原有的虚拟机重新分配,克隆模板,让每个模板只派生25台虚拟机 然后呢,研发大佬 后台进行指定模板的位置,让6个模板分配在不通的SSD 上,减小虚拟机重置时候的IO压力
对比一下调整前后的开机延时对比
调整前: 调整后:
经过调整以后,批量重启虚拟机,对集群的IO影响明显的有所改善
|