HCI不定期提示硬盘服务问题处理 一、背景说明 在搭建4.0.16 ARM环境的HCI时候,发现在组虚拟存储后,HCI的界面不定期提示,某台主机的某块硬盘服务问题,告警日志也没有记录,不定期的硬盘离线会导致虚拟存储不稳定,可能会导致虚拟机服务异常,需要进行排查
二、处理步骤 1.观察异常现象及影响 HCI界面不定期出现硬盘服务异常,硬盘离线等,1-3分钟又自动恢复,查看告警日志无告警记录,影响虚拟存储服务稳定性。
2.收集异常主机的内核日志及raid卡日志,协调专家后台查看异常主机的日志进行分析。 收集内核日志步骤: 登录到异常主机的后台,收集 /sf/log/today/kernel.log 文件 内核日志中可以看到有SATA link down 以及 iscsidevice报错, 需要分析raid卡日志
收集raid卡日志步骤: 将解压后的collect_info.sh上传到出现故障的主机后台,通过命 令“bash collect_info.sh [][20240705] 收集当天的日志,时间记得修改。
有可能会收集失败,可以尝试登陆到其它异常主机后台继续收集,然后发给研发分析。分析 发现有SATA down和恢复的记录,怀疑是硬件问题导致的,进入BMC查看硬件日志
登录异常主机的BMC,查看告警日志,发现有对应时间的RAID卡的告警,这里注意需要修改下系统时间,默认UTC和实际相差8小时,需要调整时间为UTC+8小时。 协调客户找第三方厂家,厂家需要升级固件。
三、总结
1、新部署的环境需要打上对应的通用补丁包,防止是补丁未打出现异常。 2、查看BMC的日志时间可能和实际未对应,需要修改系统时间为UTC+8
|