功能背景:
通常当物理服务器出现硬盘故障、系统故障、中毒等情况时,导致驱动接入无响应或无法通过命令下发指令,但进程仍然为运行状态,这种现象我们即认为物理服务器进入亚健康状态。之前版本,系统对亚健康状态的主机没有识别和告警机制,导致虚拟机不会HA或者自动修复,只能等到客户发现才去排查,对客户造成影响。
功能介绍:
新版本的超融合HCI新增了一个功能“主机亚健康监控”,可以自动识别并展示亚健康主机(有假死风险或已处于假死状态下的主机),同时对于已经判断为亚健康的主机进行虚拟机开机&HA时降级处理,虚拟机不会优先在亚健康主机上运行。当系统的亚健康被人为修复后,可释放亚健康主机并回复其优先级。
注意事项:
当前主机亚健康监控功能只能对有限的风险进行检查和监控,包括:内存UECC、内存ECC、系统盘坏道、SSD寿命到期、系统盘进入只读。 系统识别到内存或系统盘故障时是不会自动修复故障的(硬件问题不可自动修复),需要人为介入。 亚健康主机释放动作允许自动和手动释放,自动释放的检测动作仅在主机开机/重启过程中会执行,没有自动的轮询检查机制。若人为确定为误判或已完成修复,可手动释放亚健康主机。
测试准备:
这里我们准备了一个测试脚本,来构造亚健康主机。具体配置和测试流程如下: 1、 启用主机亚健康监控功能 2、 新建虚拟机,开机确认其运行位置 3、 使用脚本在虚拟机运行的位置上构造亚健康环境 4、 重启虚拟机,查看虚拟机的运行位置 预期测试结果:虚拟机将自动改变其运行位置,避免在亚健康主机上运行。
测试步骤:
进入【可靠服务-主机亚健康监控】界面,勾选“启用主机亚健康监控”功能。
新建一台虚拟机,开机并查看其运行位置:在192.200.244.212上
进入192.200.244.212主机,使用脚本构造亚健康环境(具体构造方法在这里就不写了)
亚健康主机构造成功,在编辑虚拟机运行位置的时候,就可以看到提示
重启虚拟机
查看其运行位置,切换为201主机。
删除亚健康构造脚本,并手动移除亚健康目录(重启是可以自动移除的)
测试结果与测试预期符合,测试成功。
|