本帖最后由 如沐清风 于 2024-5-27 20:46 编辑
背景 某期货公司需要在不影响业务的场景下,将4节点HCI集群缩容一台主机扩容到其他HCI集群 缩容前置条件 1.集群中主机均在线,且磁盘无故障,无亚健康,以保证能够正常进行数据迁移; 2.虚拟存储卷类型为普通卷或延伸卷,目前复合卷不支持缩容; 3.不支持同时缩容一个集群的多台主机,每次只能缩容一台; 4.缩容过程中会禁用集群的卷运维操作,即不允许创建卷、扩容卷、删除卷、替换磁盘、替换主机等; 5.普通卷场景下,待删主机所在卷内的数据节点数不能少于4台; 6.延伸卷场景下,待删除主机所在故障域内数据节点数不能低于3台,且如果原本两个故障域内主机数相等,只缩容其中一台会导致容量不平衡。为了保证容量平衡,最好是每个故障域都缩容掉同样的主机数; 7.环境中有数据平衡、数据同步等任务正在执行时(缩容触发的任务不在此类),不建议进行缩容,需等任务结束后再开始缩容; 8.待删主机上如果有正在使用的共享盘、iSCSI盘等链接,或者是作为共享盘跨卷服务或者iSCSI服务的接入主机时,需要技术支持介入处理,且处理过程中可能会出现业务断流情况; 9.HCI6.3.0系列不支持5主机缩容成4主机; 10.缩容后需将被删除的主机恢复出厂设置,否则该主机后续无法被其它环境使用。 11.当在执行缩容步骤 “关闭主机电源” 退出工具,需要人工登录集群删除主机并联系技术支持清理缩容进度。
12.需要先升级版本最新预警补丁,才能执行主机缩容。 13.不支持缩容控制节点,缩容前需要将待缩容主机设置为非控制节点 缩容步骤 1、将待缩容主机上的虚拟机全部热迁移到其他节点,待迁移完成后检查数据副本一致性是否正常(检查命令详见文章结尾),使用aDeploy工具对集群进行巡检 2、集群巡检正常后使用aDeploy工具中的【HCI主机缩容】功能进行缩容,以下为详细缩容步骤截图:
3、缩容完成后巡检集群,保证集群正常运行 问题处理 使用aDeploy工具缩容前置检查不通过,报错截图如下:
处理结论:经过研发分析,HCI 6.10.0以下版本均存在容量空洞问题(缩容空间检查用的容量不是实际容量,是带有空洞的;如下图:缩容节点共有14.6TB空间,实际使用3.4TB,平台计算容量空间时将未使用的11.2TB也带入计算),此问题无解决补丁包,属于偶发问题,缩容前检测不通过则需要联系研发处理
数据副本一致性检查命令 1、使用 cat vs/version查看vs的版本 2、VS版本在3.0以下:后台执行vs_cluster_cmd.sh e "/sf/vs/bin/vs_localhost_checkok.js ;echo \$?"——————说明:输出结果为0则正常,为1则数据副本异常,需要联系研发处理 3、VS版本在3.0以上:后台执行for b in $(gluster v i | grep host- | awk -F: '{print $1}' | grep -Eo '[0-9]+'); do vs_rpc_tool --cmd check --brickno "$b"; done ————说明: err_files[ ]中没有输出内容表示正常 (6.8.0以上的版本需要进VS容器执行)
|