提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

问题概述:单个虚拟机卡慢的可能原因和排查思路概述

|

问题描述

问题概述
单个虚拟机卡慢表现一般是整机拖动窗口、打开程序、操作系统及程序等所有操作反应都存在严重延迟或者卡慢,甚至卡死。

可能原因
虚拟机系统因素:
1、虚拟机操作系统自身环境异常导致
2、所有虚拟机内都安装了异常软件,比如:垃圾软件、杀软、加密软件、安全软件、图像处理或渲染软件(软件本身的问题需要过多的渲染画面或渲染命令,会间接导致显示缓慢)等
3、虚拟机agent异常导致卡慢
4、虚拟机资源不足导致卡慢,比如:CPU、内存等

注意:
①虚拟机资源主要是CPU、Memory(内存)、网络IO、磁盘IO、PageFault(页面错误,达到上千万、上亿的pagefault)、ContextSwitch Delta(上下文切换增量,在5万以内都是正常,达到10万可能引起问题)、系统句柄泄露(正常都在10万以内,5-6万左右,超过10万就要引起注意),虚拟机这些资源过高都可能会导致系统出现卡慢、延迟现象;
上下文切换增量(ContextSwitch Delta)需要使用procexp工具才可以看到这项参数,简单的理解这个参数就是进程切换或者任务切换需要消耗的资源,Context Switchs过高,会导致CPU就像个搬运工一样,频繁在寄存器(CPU Register)和运行队列(run queue)之间奔波,系统更多的时间都花费在线程切换上,而不是花在真正做有用工作的线程上,因此Context Switchs过高会导致系统卡慢。

网络因素:
1、内网场景中,终端到VMP的网络不稳定、延迟大、带宽不足会问题都会导致卡慢
2、外网场景中,除了终端到VDC网络环境不稳定外,还有可能是外网接入并发量过大,导致VDC出现异常

终端因素 :
1、终端的版本和VDC是否匹配,当版本不一致会影响操作引发卡慢
2、终端自身性能是否存在瓶颈,导致操作卡慢

注意:
正常情况下单台虚拟机卡慢一般不会是平台存在异常导致,因此VDC和VMP以及存储平台只需要简单的看下是否有告警以及存储性能和IO延时是否存在问题即可。但也存在客户侧存在多人卡慢,只有某个人反馈的情况,因此处理前需确认清楚具体的卡慢现象以及环境等基本信息,来确保问题可以快速有效的定位

排查思路
1、确认卡慢的现象以及卡慢的时间点,并且收集平台环境等基本信息;
2、确认VDC、VMP、存储平台是否存在异常;
3、确认是否是虚拟机agent异常或者终端版本异常导致的卡慢;
4、确认是否是虚拟机内部环境或性能不足导致的卡慢:
5、确认是否是终端性能问题或环境问题导致的卡慢;
6、重新派生或新建模板派生虚拟机对比看是否正常;
注意:附件是卡慢checklist表,也可以按表格进行排查并收集相关信息
SFRD-VDI-1.0-虚拟机卡慢排查checklist.xlsx (50.65 KB, 下载次数: 53)

解决方案

故障现象关键信息确认
解释:此部分内容面向外部客户(适配L1、渠道、客户),需要外部提供的信息,内部L1层级保障能够将这部分信息收集全面好准确;
1、故障现象描述:具体卡慢的现象描述
2、故障发生时间:卡慢的时间点,最好提供精准时间点,若是不清楚可以提供大概的卡慢时间段
3、故障影响范围:卡慢是否影响业务等
4、故障前做过的操作:是部署后就出现卡慢,还是之前正常近期在使用过程中出现的卡慢,若是近期出现的卡慢,平台环境、网络环境及虚拟机内部是否有做什么变更
5、设备部署模式及网络拓扑:VDC的部署模式(内网还是外网,直连还是代理),VMP服务器到终端中间的网络情况或拓扑
6、设备详细版本信息:VDC的详细版本信息
7、终端版本是否匹配:在VDC客户机管理中检查终端版本是否匹配
8、网络是否有延时丢包:VDC客户机管理中可以检查网络是否有丢包延时
9、确认VMP、VDC、存储是否有异常告警:比较卡慢虚拟机与正常虚拟机的运行位置、存储位置、CPU/内存/磁盘类型/有无特殊的独立性

我要分享
文档编号: 230651
作者: admin
更新时间: 2023-01-05 17:29
适用版本: