本帖最后由 山东_张伟 于 2023-5-16 11:35 编辑
这是今年五一期间收到的一个客户的告警,内容如下:
环境:客户是最早一批使用超融合的客户,安装时间约是在2017年,安装初始版本为5.3,后来升级到5.8.3R4版本(因为客户窗口期问题,一直没有再升级)。因为老版本当时对于一些配置没有要求,所以服务器在追求磁盘配比符合要求的情况下只在光驱位置使用托架安装了一块540S 的120G作为系统盘来使用(这也是本次的故障点)。
确认情况后,我们一边为客户采购硬盘,一边与客户沟通替换流程。初定的流程如下: 本次将对三台服务器进行逐一替换,替换时长预计约为1周时间(具体时长需根据服务器实际同步情况而定)。 大体步骤如下: 1. 关闭非重要业务虚拟机。目的:使剩余两台服务器资源足够拉起重要业务虚拟机正常使用。 2. 删除部分不重要虚拟机或虚拟机的备份,清除存储空间,将空间使用情况降到90%以下。 3. 关闭超融合系统动态平衡,防止迁移到其他物理机运行的虚拟机通过平衡功能重新迁移回来继续运行。 4. 对替换系统盘服务器上的虚拟机业务进行运行位置迁移。 5. 对替换系统盘服务器进行关机操作。 6. 将该服务器的所有连接网线拍照后断开连接。 7. 替换该服务器系统盘。 8. 开机后重新安装超融合底层。安装完毕后设置好新地址(非原来的IP)。 9. 在集群上点击替换主机,进行替换主机流程。 10. 等待集群检测通过,系统自动进行主机替换,并进行存储同步。 11. 等待主机显示替换完成后将主机IP地址修改回原主机IP。单台实施完毕。 12. 替换第2、3台时,重复4-11步骤。 13. 所有主机系统盘替换完毕。 替换过程的注意事项 1. 因为业务不能中断,所以每台更换系统盘的主机必须等待存储同步完成后,虚拟机才能再次迁移到本机运行,且同步过程中不能关机,一旦在没有完成同步的情况下关机将导致替换主机失败。 2. 因早期超融合版本对网络的配置要求较低,导致存储私网并未像现行版本一样要求万兆网络速率,所以存储同步的实际时间可能会很长。 当存储进行同步时资源占用较高,可能会导致对虚拟机的访问变慢,当全部替换完毕后会有所回升。
节后上班第一天,我们开始按照之前商量好的步骤开始逐步的替换主机,但……这也是噩梦的开始…… 使用客服发来的ISO镜像制作完安装U盘,信誓旦旦的开始安装然后……第一个下马威来了 额 好吧,我重新写一遍U盘 写完之后就是……
无休止的卡在这个界面。
于是更换U盘,重新做…… 刻录光盘…… 更换光盘和光驱…… 好吧换个方法,使用服务器的IPMI(此处省略与服务器厂家沟通无法使用IPMI远程的过程,都是泪啊……) ,终于看到了点希望 然后就又是无尽的等待……同时还伴随的让人无法理解的CPU降电压与内存丢失
通常到了这一步出现这个情况,基本都会归类到服务器硬件故障,我们当时也是这么想的,由于服务器已经超保N年,并且市面只能淘二手的配件,于是几乎是在崩溃边缘的我鬼使神差的将老系统盘安了回去,于是神奇的一幕出现了,在没有任何告警的情况下,我们又看到了那熟悉的HCI底层加载完毕的登录界面……
排除了服务器硬件问题,反而更没有头绪了,于是乎查了一下新硬盘的型号和兼容列表,这盘竟然不在兼容列表里……瞎折腾了2天。于是重新准备购买符合兼容列表的硬盘,但一个问题依旧盘旋在心头,为啥卡在/dev 界面的时候都会同时伴随CPU将电压和内存丢失呢?于是产生了一个大胆的想法,拆掉系统盘,看看会不会状态依旧,于是乎又看到了熟悉的画面和熟悉的服务器报警……
崩溃了,这分明就是不允许安装啊!第三天就这么过去了。 既然安装这条路走不通,那么就要剑走偏锋了。首先想到的就是大名鼎鼎的GHOST,我们的想法是使用最原始的磁盘对拷,管他4K对齐不对齐的,先搞一下试试,于是新的下马威接踵而至 尝试修复引导区无效,于此同时我们为安全起见所购买的与原系统盘同型号的固态盘到了,我们又用这些硬盘做了一遍,状态依旧…… 然后我们又想到了使用服务器容灾备份软件(一个重装系统的活,硬生生让我们干成了容灾)。 找了一下目前比较主流的服务器备份工具:安克诺斯;科力锐…… 先联系安克诺斯的经理,要到了一个测试版的软件,虽然测试版不支持磁盘对拷,但是支持备份还原,于是我们使用老硬盘为源盘制作备份,使用同型号的二手盘作为目标进行还原。一次成功,我们看到了盼望已久的解压画面,读取界面,加载完毕的登陆界面。测试没有网口乱序,没有报错,没有认不到缓存和数据盘,服务器没有降电压,内存没有丢失。我们又用不在兼容列表里的新硬盘做还原测试,同样OK! 意外的惊喜是除了第一台服务器因为停机时间过长导致同步数据时间较长之外,另外两台在很短的时间内完成同步,我们比预期的一周提前1天完成替换和服务器上线任务。
总结:老服务器可能因为时间久远,加上版本的陈旧,质保超期,会出现各种意想不到的问题,在软硬件厂家均无法提供正面且有建设性的帮助的情况下,一些其他类型的软件在问题的处理当中会有意想不到的效果。 |