安装深信服 HCI 硬盘延迟问题及 VDC 迁移记录
  

winter 311

{{ttag.title}}
# 安装深信服 HCI 硬盘延迟问题及 VDC 迁移记录
本文记录一次在 Lenovo System x3650 M5 服务器上安装深信服 HCI 后遇到的磁盘 I/O 延迟问题,以及后续 VDC 跨 HCI 集群迁移过程中的注意事项。

> 参考资料:`深信服_桌面云aDesk_通用材料_场景案例.pdf`,第 425-432 页,“跨服务群集迁移(测试转销售场景)”。

## 一、问题现象

使用 x3650 M5 服务器安装深信服超融合系统后,拷贝容量较小的虚拟机硬盘时没有明显报错;但拷贝较大的虚拟机硬盘时,大约到 300 GB 左右会出现速度变慢、卡顿,最终后台提示硬盘卡顿。

联系深信服官方远程排查后,通过收集日志发现存在物理 I/O 错误。初步判断不是硬盘本身问题。
磁盘延迟明显偏高:

二、排查过程
中间尝试过以下排查和处理:
  • 将 16 TB 硬盘更换为 8 TB 硬盘测试。
  • 升级 IMM 固件。
  • 按硬件接触不良方向处理,拆机清理灰尘,并重新插拔线缆。
  • 继续观察后仍出现 I/O 错误。


最终怀疑问题可能在 RAID 卡。该服务器 RAID 卡型号为 M5210,官方建议升级 RAID 卡固件。

三、RAID 固件升级处理
1. Linux 版本升级包不可用
深信服 HCI 底层是定制 Linux,无法直接安装第三方固件升级插件,执行时会提示权限不足。
尝试过使用联想官网提供的 ISO 启动固件升级方式,但该方式已经不支持这类 M5 老服务器。ISO 可以正常启动,但无法识别 RAID 卡驱动,因此无法完成升级。
2. 改用 Windows 系统升级
最后采用 Windows 环境升级:
  • 将当前 HCI 系统格式化。
  • 安装 Windows Server 2016。
  • 下载 RAID 卡 Windows 版本固件升级包。
  • 在 Windows 环境中完成 RAID 固件升级。
  • 测试在U盘PE,Windows系统下也可以升级,这样更方便,可以省去以上4个步骤,直接使用第五步PE安装。





固件升级前版本为 4.290,升级后版本为 4.68。

固件下载地址:
https://datacentersupport.lenovo.com/hk/zc/products/servers/system-x/system-x3650-m5/8871/downloads/driver-list/component?name=RAID%2FSAS%20HBA%20Controllers,%20Backplanes,%20Storage%20Expanders%2FSwitches,%20Bootable%20Storage&id=D3C7592B-24B3-4ADE-B3BF-1BAAEF120728

下载时进入 RAID 卡相关页面,搜索 fir,选择 Windows 版本固件包即可。

3. 升级后的处理
升级后版本

RAID 固件升级完成后,将系统从 Windows 切换回深信服 HCI。由于原来的虚拟化存储池不可用,后续重新创建存储池,并重新导入数据。
升级 RAID 固件后,未再出现 I/O 错误,IMM 后台也不再看到 RAID 卡相关告警日志,问题最终解决。
四、现场总结
  • 两台 HCI 组成的集群,如果从其他集群迁移过来的虚拟机无法直接迁入虚拟磁盘池,可以先迁移到“其他存储”里的本地存储硬盘,再从本地存储迁移到虚拟磁盘池。
  • 两台集群扩容为三台集群时,需要正式授权,临时授权无法使用。
  • 深信服 HCI 底层无法直接使用 Linux 版本第三方固件更新包,不支持安装第三方软件。遇到类似老服务器固件升级问题时,Windows 环境升级更稳妥。
  • 缓存盘一定要按官方建议的配比配置。


两台集群扩容为三台集群时,建议第三台机器的磁盘规格与前两台保持一致。扩容操作前需要关闭所有虚拟机。

五、VDC 跨 HCI 集群迁移步骤以下步骤根据官方 PDF 第 425-432 页整理,并结合本次实际操作补充说明。官方场景名称为“跨服务群集迁移(测试转销售场景)”。
迁移前注意事项
  • 迁移前先确认用户已保存工作数据,并按实际情况关闭待迁移虚拟机。如果选择跨集群热迁移,则可不关闭虚拟机。
  • 原集群中的 VDC 虚拟机需要跨集群迁移到目的 HCI 集群。
  • 迁移 VDC 虚拟机时,不能选择“保留原虚拟机”的方式,否则迁移后的 VDC 网关 ID 会变成全 F。这里应按“移动”方式迁移,不要按“克隆/保留原虚拟机”方式处理。
  • 模板虚拟机不要跟普通派生虚拟机一起在 HCI 后台跨集群迁移。模板需要通过 VDC 的“模板恢复”流程处理。



1. 迁移 VDC 虚拟机
将原集群中的 VDC 虚拟机跨集群迁移到目的 HCI 集群,迁移完成后启动目的集群上的 VDC。
注意:不要选择保留原虚拟机,否则可能导致 VDC 网关 ID 变成全 F。

2. 迁移普通派生虚拟机
登录源 HCI 平台,进入【虚拟机】管理页面,点击【批量编辑】,选择需要迁移的普通派生虚拟机。
注意这里不要选择模板虚拟机,只选择需要迁移的派生虚拟机。
然后点击【更多 - 迁移到其他集群】,按向导选择:
  • 目的 HCI 集群;
  • 目标存储位置;
  • 桥接网口;
  • 其他相关配置。




如果选择的是不保留源集群虚拟机的迁移方式,则不要勾选“迁移后为目的虚拟机分配新的 MAC 地址”。
官方说明中 HCI 跨集群迁移有两种方式:
  • “迁移到其他集群”:迁移完成后,源集群会自动删除对应虚拟机,后续可从回收站找回。
  • “迁移到其他集群,并保留原集群的虚拟机”:迁移完成后,源集群不会自动删除对应虚拟机,VDC 也不会显示虚拟机丢失。后续需要在 VDC 中手动筛选迁移的虚拟机并删除释放。




3. 在 VDC 中处理已迁移虚拟机信息
登录迁移后的 VDC 控制台,进入【资产管理 - 虚拟机管理】,筛选状态为“虚拟机丢失”的虚拟机,过滤出已经完成跨集群迁移的虚拟机。
对这些虚拟机执行:
  • 批量选中虚拟机。
  • 点击【更多 - 导出虚拟机信息】,导出迁移虚拟机信息。
  • 在迁移后的 VDC 控制台删除这些已完成跨集群迁移的虚拟机信息。
  • 删除时不要勾选“同步删除虚拟机”。




注意:VDI 5.9.1R1 及以后版本,官方说明无需执行“导出虚拟机信息”这一步。
4. 在 VDC 中关联目的 HCI 集群
在迁移后的 VDC 控制台进入【系统设置 - 平台对接 - 虚拟化管理平台】,新增并管理目的 HCI 集群。

5. 恢复模板虚拟机
先在源 HCI 集群上删除已迁移虚拟机对应的模板虚拟机,并清空回收站里的模板虚拟机。
注意:这里删除模板虚拟机后,下一步可通过 VDC 模板恢复流程恢复。可能丢失的数据范围主要是模板虚拟机在最新版本开机后产生的数据,一般来说是可接受的。
然后在迁移后的 VDC 控制台进入【资产中心 - 虚拟机模板管理】,选择处于丢失状态的模板,在【更多操作】中选择模板恢复,将模板恢复到目的 HCI 集群。
这里要注意:模板不是通过 HCI 后台普通跨集群迁移完成,而是通过 VDC 的模板恢复流程完成。

6. 在桌面资源中重新导入虚拟机
在迁移后的 VDC 控制台进入【业务中心 - 资源管理】,编辑迁移虚拟机所属的桌面资源。
在“单独导入虚拟机位置与数量”处,将已经完成迁移的虚拟机重新导入。官方说明里强调,关机状态的虚拟机才能在导入时被加载到。
例如 azy-20 这个资源,进入资源编辑页面后,选择【导入】,选择新集群,找到对应的新虚拟机,然后导入并保存。
等待导入完成:
注意:
  • VDI 5.6.0 到 VDI 5.9.1 版本,导入完成后虚拟机会处于关机并锁定状态。
  • VDI 5.9.1R1 及以上版本会自动导入用户关联关系。


7. 重新导入用户关联关系
如果是 VDI 5.9.1R1 之前版本,还需要重新导入用户关联关系。
操作路径:
  • 在迁移后的 VDC 控制台进入【资产管理 - 虚拟机管理】。
  • 点击【更多 - 导入关联】。
  • 点击【下载示例文件】,下载导入表格模板。
  • 将前面导出的迁移虚拟机信息按模板格式填入。
  • 保持文件格式为 csv,不要修改格式。
  • 上传并完成迁移虚拟机用户关联关系的重新关联。




注意:VDI 5.9.1R1 及以后版本,官方说明无需执行这一步。

8. 删除资源中的旧新建记录
导入完成后,再次编辑对应桌面资源,在“新建虚拟机位置与数量”里找到虚拟机迁移前所属的新建记录,将该记录删除。

9. 删除源 HCI 集群关联
全部资源导入和关联关系处理完成后,在迁移后的 VDC 控制台进入【系统设置 - 平台对接 - 虚拟化管理平台】,删除源 HCI 集群。
10. 登录验证最后进行登录验证:

  • 使用测试用户登录桌面云。
  • 确认资源能正常显示。
  • 确认虚拟机能正常开机。
  • 确认用户与虚拟机绑定关系正确。
  • 确认模板状态正常。
  • 确认旧 HCI 集群关联已删除。


打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

发表新帖
热门标签
全部标签>
有一说一
新版本体验
功能体验
每日一问
信服课堂视频
GIF动图学习
标准化排查
华北区交付直播
【 社区to talk】
纪元平台
技术盲盒
每周精选
高手请过招
西北区每日一问
社区新周刊
安全效果
2025年技术争霸赛
产品连连看
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
平台使用
山东区技术晨报
文档捉虫
齐鲁TV
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案
声音值千金
工具体验官
产品知识周周练
产品体验官
VMware替换

本版版主

8
18
28

发帖

粉丝

关注

40
57
47

发帖

粉丝

关注

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人

runner

本周提问达人