本帖最后由 张涵博 于 2024-8-1 10:53 编辑
记录桌面云更换系统盘操作 原因:系统故障/系统盘SSD寿命不足告警
更换思路一览 ①:判断系统盘是否做了Raid1,若做了Raid1可以确定好盘位直接更换Raid1的单块磁盘,然后等待数据同步即可;
1. 可以通过进服务器的BMC系统查看存储阵列是否有Raid1,磁盘是否对应上。 2. 观察物理服务器系统盘位置是否是有两块。一般系统盘处在服务器后面板,注意区分是否为nvme缓存盘。
②:判断VMP版本是否高于5.4.0,若高于5.4.0可以采用【重建系统盘】的方式更换,否则采用【更换主机】的方式更换; 重建主机和重建系统盘的区别在于重建系统盘新主机配置的地址是和原机相同的,重建主机是需要重新配置一个不重复IP地址
③:判断是否满足【重建系统盘】的限定条件;
【重建系统盘】: 1、单台主机的VMP集群无法通过此方法恢复。 2、集群中同时损坏两台及两台以上主机的系统盘,也无法通过此方法恢复。 3、替换系统盘的新磁盘大小不能低于原磁盘大小。 4、全新安装的VMP系统的管理IP、VMP版本必须与故障前的主机一致,且需与集群网络保持连通。 5、版本需要高于VMP5.4.0。
更换步骤一览 【重建系统盘】 ①:检查现有集群状态,记录现有集群信息; 检测现有集群状态:可以使用一键检测、adesk巡检工具巡检,主要检查存储副本一致性。(可以通过系统升级处的检查) 提前一天记录现有集群信息: 1.版本,补丁包信息,版本安装包/补丁包如果在support平台查询不到需要找一下办事处同事/社区人工客服查询; 2.主机的数量,设备网口规划,管理口MAC地址;
②:迁移需更换系统盘主机上面的虚拟机,关机更换系统盘,安装系统;
注意: 1.在安装系统的时候可能会遇到选择系统盘困难,比如缓存盘和系统盘一样的大小,这里可以提前把缓存盘都拔掉(需要提前确认是否直通,是否支持拔插),安装完系统后再插回去。 2.安装系统时遇到配置网口地址的时候,可能会存在网口乱序的情况,所以最好多配置几个管理地址,以防乱序到光口导致电脑无法管理平台。
③:检查网口顺序是否正常; 方法1:网口顺序异常可以使用桌面云交付工具-网口顺序调整操作,通过拔插网线确认出实际网口和界面显示的差别做出调整。 列:设备前面板标签0 1 2 3 4 5,web界面为 0 1 5 4 3 2 然后点击确定。若出现‘自定义调整失败,请联系深信服技术支持人员’可通过后台输入命令touch /boot/boot/iso_install.sign尝试解决。 方法2:进后台提前备份配置文件,将/boot/boot/net目录下的所有文件备份到本地,待重置系统完成后覆盖并重启。
④:配置管理口地址,恢复管理口MAC地址 在桌面云场景大多数管理口是配置的聚合口,聚合口的MAC地址是随机生成的,因为重建系统盘会校验管理口IP/MAC地址,需要提前配置好与原机相同的IP和MAC,IP直接在界面配置即可,MAC地址需要后台修改配置文件并重启生效。 进入新主机后台,输入命令vim /sf/cfg/if.d/bond.ini修改对应IP的MAC地址成旧MAC地址,旧MAC有两种方法获取从第一步收集信息提前收集,第二种在执行重建操作后F12查看校验代码 ⑤:按照版本信息进行打包 按照前面收集的信息正常打包即可,注意打包顺序和打包影响。这里有个小坑,如果这台服务器插key后扫验证码后并没有激活,后续打包会校验失败,需要400在后台进行打包或者放通操作,建议就是不插key。
⑥:VMP集群执行重建系统盘操作,等待数据同步完成;
执行重建任务后会自动重启新主机,重启完成后进行数据同步(如果未有运行的虚拟机不会进行数据同步) 同步完成后可以通过后台命令 vs_cluster_cmd.sh x '/sf/vs/bin/vs_localhost_checkok.js check_all; echo $?' 命令检查虚拟存储副本一致性,全0代表无异常。
或前台系统升级检测是否异常
检测无异常后测试虚拟机开机是否正常后进行下一台主机替换操作
⑦:如果是集群所有主机都需要替换,替换系统盘最后一台主机的注意 由于替换系统盘的原理就是去集群中其他主机上获取“要替换主机在线时备份在其他主机上的系统配置文件”并恢复到新的干净系统盘中所以,当集群中所有主机都要执行替换系统盘时,替换到最后一台主机时,最后一台主机备份的配置已经在集群中不存在了(保存在其他主机,其他主机系统盘已经被替换了),可以后台执行命令,让其他再生成 /sf/etc/cron.d/daily.d/71backup_sfcfg_to_otherhost.sh 然后在集群进行检查(集群后台执行vs_cluster_cmd.sh e "ls /sf/data/local/private/cfg_backup/ | grep host-0cc47acf4584") Xxx :代表主机的hostname 如果没有最后一台主机上重新执行命令 /sf/etc/cron.d/daily.d/71backup_sfcfg_to_otherhost.sh
———————————————————————————————————————————— 如有不对的地方请指出 |