提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

问题概述:大批量虚拟机使用卡慢的可能原因和排查思路概述

|

问题描述

问题概述:大批量虚拟机使用卡慢的可能原因和排查思路概述

有效排查步骤

现象描述
1、所有虚拟机在使用过程中出现卡慢或卡死;
2、某个楼层或者办公室的虚拟机在使用过程中出现卡慢或卡死;
3、部分人在使用过程中出现卡慢或卡死;
4、部分人在使用过程中随机出现卡慢或卡死,操作延时;

可能原因
平台环境因素:
1、集群主机CPU/内存等硬件故障、超配、离线、降频等
2、虚拟存储异常导致卡慢,比如:卡慢盘、存储空间不足、存储IO性能不足、缓存盘配比异常等
虚拟机系统因素:
1、虚拟机模版本身问题或系统异常导致
2、所有虚拟机内都安装了某同款异常软件,比如:垃圾软件、杀软、加密软件等
3、虚拟机agent异常等
网络因素:
1、内网场景中,终端到VMP的网络不稳定、延迟大、带宽不足会问题都会导致卡慢
2、外网场景中,除了终端到VDC网络环境不稳定外,还有可能是外网接入并发量过大,导致VDC出现异常
终端因素 :
1、终端的版本和VDC是否匹配,当版本不一致会影响操作引发卡慢
2、终端自身性能是否存在瓶颈,导致操作卡慢

解决方案

排查思路
1、首先确认卡慢虚拟机的基本信息和卡慢时间点以及现象,并且确认是否有共性,比如:同一个主机上的卡、同一个时间点卡、同一个办公室卡、同一个模板卡等等;
2、确认是否是VMP平台及存储异常导致的虚拟机卡慢;
3、确认是否是虚拟机agent异常或者终端版本异常导致的卡慢;
4、确认是否是网络异常导致的卡慢:
5、确认是否是主机异常导致的卡慢;
6、确认是否是存储异常导致的卡慢;
7、确认是否是虚拟机模板或虚拟机自身问题;
8、确认是否是终端性能问题或环境问题导致的卡慢;

注意:
若是问题非必现或无现象,也是可以获取远程环境收集上述信息的,根据客户提供的故障时间点,检查是否存在上述排查提到并涉及的问题点,最后针对收集的信息给出下一步计划,方便下一次出现异常后可以准确的定位问题;

信息确认:故障现象关键信息确认
解释:此部分内容面向外部客户(适配L1、渠道、客户),需要外部提供的信息,内部L1层级保障能够将这部分信息收集全面好准确;
1、故障现象描述:具体卡慢的现象描述
2、故障发生时间:卡慢的时间点,最好提供精准时间点,若是不清楚可以提供大概的卡慢时间段
3、故障影响范围:卡慢是否影响业务等
4、故障前做过的操作:是部署后就出现卡慢,还是之前正常近期在使用过程中出现的卡慢,若是近期出现的卡慢,平台环境、网络环境及虚拟机内部是否有做什么变更
5、设备部署模式及网络拓扑:VDC的部署模式(内网还是外网,直连还是代理),VMP服务器到终端中间的网络情况或拓扑
6、设备详细版本信息:VDC的详细版本信息

注意:
附件是卡慢checklist表和桌面云最佳实践,卡慢问题也可以按最佳实践先配置测试,无效果后再按checklist表格进行排查并收集相关信息,详细参考如下附件。
桌面云通用场景最佳实践:
深信服桌面云aDesk性能最佳实践.docx (643.41 KB, 下载次数: 68)

桌面云3D场景最佳实践:
深信服桌面云aDesk_vGPU常见规划调优建议_V1.8.pdf (5.55 MB, 下载次数: 24)

卡慢checklist表:
SFRD-VDI-1.0-虚拟机卡慢排查checklist.xlsx (50.65 KB, 下载次数: 69)

青年才俊 发表于 2023-8-7 18:44
  
楼主的文章图文并茂,清晰易懂,看完这波操作可以轻松上手了,如遇到问题再向楼主请教~

我要分享
文档编号: 230353
作者: admin
更新时间: 2023-01-05 17:29
适用版本: