本帖最后由 老表 于 2025-12-26 13:11 编辑
一、背景客户原有建设六节点超融合集群,现在有业务系统增加需要扩容两主机节点并且把原来硬件配置上的异构尽量调整为同构,将原有主机一步扩容到位,涉及到磁盘扩容、内存扩容、网卡扩容、主机扩容和交换机扩容 现有情况如下: 1.磁盘异构 磁盘配比千奇百怪 2.内存频率异构 集群中存在2666、2933和3200三种频率 3.网络平面异构 由于之前多次扩容的型号不一致,网口数量有多有少,所以网络平面的端口数也不一样 4.单交换机 现有各网络平面交换机都是单机运行,存在单点故障风险 二、方案设计 考虑到成本尽可能利旧原有硬件,规划如下 1.磁盘统一调整为2*960G SSD+4*4TB HDD 2.内存条确保同一个主机内频率相同,每台主机扩容8根32G内存条 3.扩容两个万兆口,保证每个主机至少四个光口四个电口,让业务和存储都走双万兆 4.新购5台交换机,与原有三台组成4组堆叠,另一台交换机用于IPMI接线 三、实施步骤 先让客户把所有业务虚拟机关机,然后在一台台关主机,主控最后通过电源键关机 第一步,扩容内存条 内存条的插法提前在BBS上面查询内存条插法,根据主机SN码找对应的图,这项目有三类SN码,这里不列出来了。 需要注意的是,实际槽位编号位置跟图是不一样的,槽位编号要看主机内部的标注(实物图中画框的地方),内存条只要插法是对的,开机就没问题,开不起来就重新检查插的位置是否准确 第二步,安装网卡 装内存条的时候既然拆机就一并把网卡装上,可以看下原来板载的网卡怎么装的,依葫芦画瓢就行。 但是要注意,400说安装新网卡有一半概率会导致网卡乱序,调整乱序要么通过IPMI进后台让400调整,要么自己试出哪个是管理口,连接成功后通过aDeploy边测边改,算上重启时间一台估计要十多分钟。 这次项目没有遇到乱序,不知道是运气还是理解有误 第三步,网络调整 交换机先完成两两堆叠,交换机堆叠要确保系统版本和补丁版本一致,之前遇到过新发的两台版本不一致忘了检查,一堆叠系统挂了。 服务器管理网先接单线,登录集群 调整网络平面,千万注意如果存储网要从主备修改成负载模式是需要先删除存储网络再重新配置,调整前要记录每个主机对应的存储IP是多少,重新配置时,IP必须得一一对应上,不然会导致存储异常,如果IP没变还是异常了,就得联系400后台修改网口信息,非必要不要删除存储网络 第四步,主机扩容 正常扩容就行,这一步业务就可以拉起了 第五步,磁盘替换 这一次涉及到了将小盘替换成大盘,如果是换SSD,那么替换过程中整个磁盘组是没法使用的,如果是换HDD,替换过程中就只是这个HDD不可用,建议还是要业务空闲期更换,因为会占用一定的IO,不需要停业务 (1)先检测副本一致性 (2)在磁盘管理中,选择需要替换的磁盘点击隔离 (3)等待隔离完成 (4)把旧盘拔下,插入新盘,点击替换,等待同步完成,由于数据是分散存储的,所以替换之后的磁盘占用量会变小是正常现象 然后重复上面操作替换另一块盘,替换一块480G固态大概用了一个小时四分钟,替换一块2T的机械盘大概用了一个小时二十分钟。 全部替换完之后,就是磁盘添加和虚拟存储扩容了,没有特殊要点 四、最终效果 磁盘配比: 主机情况: 网卡配置: 存储容量: 五、总结 变更之前务必提交变更申请,这样变更过程会有400全程配合处理,变更过程遇到了很多问题都必须要得400进后台才能处理,如果有启用数据平衡的,建议变更过程中先关掉,数据平衡会耽误变更进度 |