本帖最后由 山东_刘曰林 于 2023-12-5 16:18 编辑
Hello,各位大佬,分享一个超融合内存扩容的案例,有不足的地方还请大家指正
客户背景:由于客户单位新上一批业务系统,超融合平台的硬件资源已经无法满足业务系统的需要,导致原本内存资源紧缺,为了应对业务系统对硬件资源的需求,交流沟通后客户决定采购一批我司内存条进行扩容。
1. 实施前沟通及方案确认 实施之前去跟客户聊过,确认了一下当前环境是深信服一体机5主机集群,单台10条32G内存。他的最初想法是想要每台主机各插上3条64G内存,这样形成单台10(32G)+3(64G)=512G,再乘以5台。但是这样设计有违深信服的扩容规则:. 内存扩容遵循同厂商、同型号、同频率、同容量规则,不允许混插,混插可能会导致内存运行降频、故障、性能变差和影响设备稳定性。然后跟客户进行了解释(同厂商、同型号、同频率、同容量规则也进行了解释),扩容内存如果不一致的话,可以将原来服务器上的内存分配到其他服务器上,新内存再插到这台服务器上,然后决定重新进行方案规划,最终敲定排列顺序如下: A主机:32G=16条=512G B主机:32G=16条=512G C主机: 32G=16条=512G D主机: 64G=8条=512G E主机:64G=8条=512G 期间沟通修改过一次(初步分布方案如下),因为客户考虑到上面方案会浪费2条原主机32G内存,后来跟客户解释了单数内存的危害(一体机内存条不建议单数,会影响性能)。最终请示领导采用上面方案,剩余两条留作备用: A主机:32G=17条=544G B主机:32G=17条=544G C主机: 32G=16条=512G D主机: 64G=8条=512G E主机:64G=8条=512G (此方案pass)
最后与客户沟通窗口期与人员确定,客户业务可在晚上12点停机,这样可以5台主机一块停机进行操作,不用先迁移业务再一台一台搞。
2. 实施前IPMI后台检查内存型号与内存插法确定。
检查主机内存型号与采购的是否一致(再检查一遍放心)。同时需要根据一体机序列号查询内存的正确插法(这一点很重要,插错位置会导致一体机无法开机等问题),由于客户SN是F*H开头的,2U服务器内存插法如下:
3. 实施步骤。 3.1服务器拆机规范(此处详情可看一下手册,一定要注意规范,避免风险问题产生) ①防静电处理 ②防液体溅入电路板 ③不可暴力拆装 ④避免杂物掉落 ⑤断电操作 3.2检查告警信息,有问题先处理问题。 3.2检查虚拟存储是否有任务在进行,有的话需要等都完成再进行。 进行一键检查(一定要勾选虚拟存储数据检查) 建议后台也进行一下副本一致性检测: 没问题进行下一步。 3.3 在[虚拟机]列表页面,依次在虚拟机内部关闭业务系统并关闭虚拟机,在[网络与安全]的设备列表页面,关闭所有的虚拟网络设备,在[实体机]页面依次关闭所有的物理主机。 (注意:主控要最后关闭,不然会登录不上控制台。) 然后设备断电,一台一台拔线并拍照记录线路接口位置: 3.4 拆机更换内存(按照之前方案设计的位置一一进行操作) 拆机前内存记录: 拆机操作后内存位置记录:
3.5 集群内所有主机操作完毕以后,进行重新上架,插上线缆。
4.扩容内存后验证 4.1进入主机详情页面,检查内存识别, 容量匹配是否符合预期。
4.2 扩容成功后,也可登录IPMI进行后台查看内存是否识别成功。
5. 集群巡检 使用aDeploy工具对集群进行全面巡检,看一下有没有问题。
6. 验证业务 巡检没问题后, 需要各个业务系统管理员验证业务是否正常。
|