问题现象:
HCI6.3.0升级为6.3.0R1,升级完成后发现有部分虚拟机被HA自动拉起,如下图。
处理过程: l 检查是否误报 检查虚拟机确实发生了重启。 l 后台日志排查 [size=12.0000pt]1、检查sfvt_vtpalertd日志未发现 “has not any IO”等日志,说明不是虚拟机内部异常; [size=12.0000pt]2、检查qemu日志、sfvt_vtprgm.log日志、存储网络未发现异常; [size=12.0000pt]3、查看Blackbox日志,发现如下问题: 18:38:43虚拟机完成了升级。并且源端已经停掉。目的端处于运行状态。
blackbox中,18:39:18的时候,kvm进程没了, 说明在 18:38:43到18:39:18这段时间内目的端的kvm进程退出了, 具体退出的时间点是18:19:16;
升级的后置处理中获取到的源端qemu pid是18162, 但是blaxkbox中获取到的是53951,18162是目的端的pid,pid获取错误导致目的端被杀。
结论: 升级的后置处理中获取到的源端qemu pid和blaxkbox中获取到的pid不一致,pid获取错误导致目的端被杀,因而导致虚拟机重启,升级判断异常导致,630R2版本解决此问题。 |