本帖最后由 常鸿 于 2022-5-25 15:26 编辑
前一阵子交付了一个第三方主机的桌面云项目
一共16台服务器,客户采用的是四子星类型的服务器,一台四子星服务器,包含了四台物理机
前期部署比较顺利,16台物理机的大集群,包括虚拟存储,创建了200多台虚拟机,运行较稳定
交付过去几个月以后,收到客户的反馈,他们物理服务器出现了异常,服务器散热系统出现问题,温度过高,随时有宕机的风险,经过客户和服务器厂家的沟通,服务器需要翻唱维修
但是,比较难搞的是,出现问题的是四子星的主板,也就意味着客户要同时下架四台主机
桌面云的冗余能力,大家都知道,可以允许离线一台主机,离线超过两台的时候就有数据丢失的风险,所以同时下架四台主机会造成多少数据的丢失,是无法预计的,而且客户的数据都比较重要,业务也不能停。
因为服务器随时会宕机,所以问题需要抓紧时间来处理,跟客户沟通后,发现客户有很多闲置的服务器,我这边使用了三台,安装了EDS系统,搭建了EDS集群
因为EDS开通测试授权,不需要授权key,所以跟区域沟通了这个情况后,给我开了测试的授权
EDS创建完成后,创建了高性能存储池,搭建了块存储,将所有的磁盘都挂给了 云桌面
存储挂载好以后,虚拟机从虚拟存储 开始往EDS上进行迁移
迁移时候出了一个小插曲,因为迁移占据了外置存储的大量带宽,迁移过去的虚拟机和正在迁移的虚拟机都无法使用。后来经过评估,将迁移的时间主要放在下班之后。
迁移过程中还有虚拟机迁移失败等问题,一一进行解决,最终,所有虚拟机均迁移到了外置存储上,而且开机测试都正常
迁移完成后,至少数据不会丢失了,但是下架四台主机,集群的资源就没有那么充足了,所以对所有虚拟机,整体下调了可用内存
调整完以后,所有的虚拟机可以再12台物理机上运行了,客户返修了服务器
等服务器返修回来以后,客户恢复了16台物理机的集群,下一步就是虚拟机回迁
但是呢,因为他物理机的这种特殊性,一个虚拟存储卷难免会再出问题,这次有空闲服务器来做存储过度,下次说不定就没有了
所以我们给客户出了一个方案,将原有的一个虚拟存储卷,切分成两个卷,每个卷由8台物理机来组成
但是只有一个虚拟存储卷的时候,控制台是没法手动删除存储卷的,除非还原出场设置 这种情况下,是不能恢复出场的,我们找来了产品专家,让他们从后台删除了存储卷
注意: 虽说虚拟机都迁移出去了,但是虚拟存储中 还有虚拟机的备份和快照,以及回收站里的虚拟机,以及上传的ISO镜像等等,这些都会丢失
虚拟存储卷删除以后,重新创建虚拟存储 创建跨卷访问IP
创建了两个卷,以后在出现下架主机的问题,就可以全部迁移到其中一个卷中,保障业务的连续性 |