问题现象描述 2023年11月21日销售反馈某戒毒局HCI平台内存使用不足,需要替换测试授权,替换一台4U的主机到HCI平台内,来保障之后部署业务的承载能力和稳定性。 影响及范围 经过现场了解情况后,旧主机内的一台虚拟机内存为64G,由于其他主机内存使用率高达80%,目前已经无法迁移至其他主机,只能协调应用方来停掉虚拟机内服务,需要客户预留业务更改窗口期。 问题处理过程 1. 到达客户现场了解情况后,正式授权替换测试授权,由于当前版本为5.2.11R1,测试KEY插到服务器后平台无法正常识别,协调400进入后台解决,该问题为已知问题; 2. 对需要新替换的主机进行HCI系统安装,社区下载5.2.11R1镜像包做成启动盘后,在宝德服务器进入RAID设置页面将磁盘全部设置为JBOD直通模式,然后再选择USB启动盘进行系统安装,系统安装完成后,登录HCI平台后设置管理IP,这里IP要注意不要设置为和旧主机一样,配置存储网IP和vxlan-IP,检查磁盘是否都正常识别,连接管理交换机和存储交换机完成后等待替换主机操作; 3. 在HCI平台将旧主机内正在运行的虚拟机迁移到其他主机,无法迁移的虚拟机需要关机,关机后将旧主机关闭电源,然后点击替换主机,这时会识别到新主机的IP地址,然后选择加入,加入完成后等待数据同步完成后将新主机的磁盘都加入到虚拟机存储内。在把新主机的IP地址改为旧主机的IP地址,将测试key替换为正式key; 4. 在后台使用命令对存储副本一致性进行检测,检测结果正常替换物理主机成功; 问题原因分析 大量部署业务会使用平台主机内的CPU、内存、虚拟存储等配置,在使用过多的场景下平台配置不足就需要对平台进行硬件扩容。 解决方案 1. 与销售沟通,先用测试key替换主机后在更改为正式key,即可解决该问题。 2. 进行超融合维保升级,新版本超融合新增平台硬件风险告警预测,可以提前预 测发现问题,同时新版本在性能方面也有很大提升。 3. 对目前超融合平台网络进行改造,存储网改为万兆可以提高存储性能提高业务的承载能力和稳定性。 4. 部署云端智能大脑,实时监测平台和硬件预警,通过短信、邮箱或公众号及时 推送客户,避免造成业务影响。 意见反馈 服务过程中如对服务有任何意见或者建议,您可致信至深信服质量服务监督专线:400-630-6430转9 ,我们会在最快时间内给您处理,感谢您对深信服科技的支持! |