背景:
原集群中有7台主机,版本6.7.0_R2,主机硬件有8口,2个光口,6个电口,2光口跑存储,管理、业务、数据两两聚合,跑的电口,不存在复用。无补丁记录。
新增两台主机:主机2024.6出厂,一体机,自带的6.8.0版本,6口,2个光口,4个电口。
现要将两主机加入集群,方法如下: ①降低两个主机版本,加入集群。②升级集群版本,加入集群。根据环境,选①。
注:选择446G作为系统盘,选在其他磁盘会把磁盘的签名格式掉。
安装完后,不需要激活授权,需要更新集群的授权,在将主机添加进集群。
遇到的第一个问题:主机降低版本后,发现物理接口跟逻辑接口乱序(乱序如图物理0口对应逻辑2口),用巡检工具aDeploy更改接口顺序后重启,发现还是乱序,用脚本,进底层改后重启,依然乱序。
(发现过程:在eth0配置了管理IP,发现https://管理IP后显示不出来,在eth2配置IP,在把网线接在eth0口,登录https://eth2口IP,就可以)
后面发现是已知问题,修改不了。
解决办法:要么升级集群版本,要么贴标签,加入集群。
这里选择贴标签。乱序只是物理接口跟逻辑接口对不上,对带宽等没影响,因为调了很多次,顺序都比较乱了,重装系统后,两台乱序的结果都是一致的。硬件网卡跟软件版本适配问题。
二、加入集群
1、授权
目前集群是7台主机,授权占用完了,只能先更新授权,在加入集群。联系销售(把key id发给他),开授权。
更新后
2、配置网口
因为少了2个网口,所以需要做复用,逻辑口规划是eth0,1存储,eth2,3管理聚合,eth4,5业务数据复用聚合。 参考原集群中,物理网络、网口功能的配置,设置新增31、32两台的配置。
新增两台IP规划
因为管理接口对端接的交换机,交换机接口没有写配置,所以集群跟主机不通
在对端交换机上修改接口,加入vlan(管理加入了vlan2。数据原集群是A口vlan 40,业务是T口vlan1,这里先将业务数据接入的vlan40,这也为后面的报错埋下伏笔,因为原集群业务数据没有复用,走的不同vlan,但新增的两台做了复用,不可能一个接口配置1个T口vlan1,1个A口vlan40)
配置完交换机后,加入集群,添加物理主机,扩容卷的时候,
发现有块盘的签名丢了,估计是后面重装系统的时候,选错了盘,安装系统安装错了,把签名挤掉了。只能重装系统,重新签名。
添加失败
昨天加进去应该占了,估计没释放。没办法,又只能重新导入授权,然后在扩容。
这时发现,他们以前部署的每个磁盘比例都不一样。
超融合从5.8.6版本开始,只扩容磁盘到虚拟存储不扩容主机时虚拟机可以正常使用,超融合上添加磁盘到虚拟存储时不需要关闭虚拟机,但是扩容磁盘后涉及数据重建与平衡,会占用一定存储IO对业务有影响,建议在业务空闲时操作。
注意: 1、HCI设备从标准版本5.8.6版本开始,不支持单独扩容SSD作为缓存盘,可以同时扩容缓存盘和数据盘或者单独扩容数据盘。
2、2主机集群场景扩容主机扩容虚拟存储场景虚拟机要关机操作
因为之前主机没有端口复用,但新增的有端口复用,所以出现这个是正常的
出现这个告警,感觉是交换机配置没做好。
然后跟客户汇报了一下扩容完成的工作情况,说告警是没做聚合导致的。之前遇到问题的时候,没人跳出来,扩容完了,就有人这时候跳出来说要远程看看,还以为他要帮我做聚合
]结果那人排查两小时后,说没做聚合,喊我做聚合。把我整神了。
做了聚合后,在检测,都正常。 但因为业务口在 一键巡检中,检测不出来,所以只能用虚拟机迁移检测(在原来集群某主机上运行,笔记本ping虚拟机,然后虚拟机迁移到新增主机,不中断就行)。
因为之前主机有8个接口, 存储两个光口,管理、业务、数据两两做的聚合没有复用。数据交换机接口配置的A口,vlan40,数据交换机接口配的T口,vlan1
新增的主机只有6个接口, 存储两个光口,管理两个口做的聚合,业务、数据复用做的聚合,业务数据交换机接口配的A口,vlan40
所以这时候测试不得行
在几经思考后,业务接口要能通所以vlan,在业务数据的聚合口下,添加了子接口,vlan40。在交换机那边,将A口vlan 40 改成了T口,vlan1
|