【求助】HCI 平台 CentOS 虚拟机 top 显示 CPU/load 虚高,进程级负载正常

新手730221 607

{{ttag.title}}
一、问题现象在虚拟机内部使用 top 命令,CPU 显示 99.5% us,load average 高达 30+。但同时用 uptime 查看 load average 只有 0.39,用 ps aux --sort=-%cpu 查看所有进程的 CPU 加起来不到 50%,htop 单进程最高才 27%(就是 htop 自身)。两者结论完全矛盾。二、环境信息- 宿主机:HCI 超融合平台(具体版本待查)- 虚拟机 OS:CentOS Linux 7 (Core),内核 3.10.0-1160.119- vCPU 配置:4 核- 内存:16GB- 运行服务:Node.js 后端(PM2 管理)、MariaDB、httpd三、关键数据对比(同一时刻采集)1) top -b -n 1 输出:%Cpu(s): 99.2 us, 0.8 sy, 0.0 ni, 0.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st↑ idle=0, steal=02) vmstat 1 3 输出:procs r:33 | cpu us:100 sy:0 id:0 wa:0 st:0↑ 中断数 in: 32681/s(远超正常值 2000~5000)3) ps aux --sort=-%cpu | head -15:进程        %CPU   说明htop         26.7%  (监控工具自身)mysqld        4.5%sangfor_*     0.1%~2.4%  ×12 个深信服从进程node app.js    2.1%pm2 monit     2.0%所有进程累加 ≈ 42%(单核视角)→ 整机真实占用约 10%4) uptime:load average: 0.39, 0.21, 0.16  ← 非常低,与 top 的 load 30+ 不符5) /proc/stat 连续采样(2秒间隔):第一次: cpu 38858473 565 252334 124963 ...第二次: cpu 38864799 565 252395 124963 ...                              ↑ idle 从未增加(差值为 0)手动计算:busy=(6389)/total=(6391)=99.97%6) dmesg 内核日志无 OOM、无错误。磁盘 8.8TB 用了 11%,内存充足。Node 进程只占 94MB RSS。四、核心矛盾ps aux 说"没有进程在吃大量 CPU"——所有进程加起来才 42%。top/vmstat/proc/stat 说"CPU 已经满载了"——idle=0,us=100%。这两个结论不可能同时为真。如果真有进程把 CPU 吃满,ps aux 一定能看到它的 %CPU 很高。五、初步判断方向怀疑是虚拟化层导致 /proc/stat 的 idle 计数器停止增长:- 时钟源频繁切换:dmesg 有 "Switched to clocksource tsc/kvm-clock" 记录- 中断风暴:vmstat 显示每秒中断 32000+ 次(正常物理机 <5000)- 12 个 sangfor_guest_* 进程常驻运行- top 显示的 st(steal time)=0,但 idle 也=0,说明时间被计入 user 态而非 steal 态——可能是 VMM 时间计量的 bug六、影响业务本身不受影响(真实 CPU 占用只有 ~10%),但监控面板全部报警 100%,无法通过监控工具判断真实负载状态。七、请求帮助1. 这是 HCI 虚拟化层的已知问题吗?有没有修复方案或补丁?2. 是否需要升级虚拟化工具版本(VMOptimizationTools)?3. 有没有推荐的配置调整可以让 /proc/stat 报告准确的 CPU 使用率?4. 如果这是预期行为,有没有官方推荐的真实 CPU 监控方法?谢谢!

解决该疑问,预计可以帮助到 13303 人!

回帖即可获得
2S豆
,被楼主采纳即奖励20S豆+10分钟内回帖奖励10S豆 [已过期] ,了解更多S豆奖励信息

完善手机号和公司名称,让服务更省心更便捷!立即完善

王老师 发表于 2026-6-16 10:21
  
:/proc/stat 的 idle 计数器被虚拟化层卡住不增长,导致所有基于 /proc/stat 的工具(top、vmstat)都报告 100% 占用,但真实 CPU 使用率只有 ~10%。
KVM 虚拟化 + 旧内核(3.10.0-1160)下的已知行为。当宿主机的时钟源在 TSC 和 kvm-clock 之间频繁切换时,/proc/stat 的 idle 计数器会停止累积,所有 busy 时间被归入 user/system,导致 idle=0。
王老师 发表于 2026-6-16 10:23
  
在HCI管理界面找到该虚拟机,查看其“详情状态”中的“基本信息与硬件配置”,检查“虚拟机性能优化工具”是否显示为“已安装”。若显示“未安装”,请点击安装。若显示“已安装”但问题依旧,你可以尝试重装该工具。重装前请注意,该操作可能需要重启虚拟机,请务必在业务低峰期进行。

等我来答:

换一批

发表新帖
热门标签
全部标签>
GIF动图学习
新版本体验
信服课堂视频
有一说一
功能体验
每日一问
标准化排查
纪元平台
测试报告
每周精选
高手请过招
秒懂零信任
技术盲盒
社区新周刊
安全效果
2025年技术争霸赛
产品连连看
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
技术晨报
平台使用
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
【 社区to talk】
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案
声音值千金
工具体验官
产品知识周周练
产品体验官
VMware替换

本版版主

213
373
821

发帖

粉丝

关注

8
18
28

发帖

粉丝

关注

12
11
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人