问题现象: 9月18日发现有超融合单个主机离线的情况,电源闪橙色灯,按电源键开机恢复,从控制台日志查看,从9月8日起告警主机离线 处理过程: 1. 通过后台查看,没有9月8日离线日志,并且从6月20号开始日志出现断层,直到9月18日日志恢复,但控制台显示主机离线日志是9月8日开始 2. 直连IPMI获取日志查看,发现该主机是6月20号关机,9月18日才开启,查看其它主机运行时间和日志,都是在6月20号统一关机过,只有这台离线未开机 3. 控制台显示离线时间与IPMI日志不符,后台查看控制台日志原因,/sf/log/log_new.db,这个文件大于200M,每天会从后往前清理一半的日志 4. 查看控制台,几乎每分钟都一直有登陆控制台失败的操作日志,查找操作日志产生原因,显示的每次登录失败的登录地址是SCP的地址,登录SCP查看到对接的HCI属于异常状态,修改对接密码后显示连接正常,并观察操作日志显示登陆成功且没有再刷新登陆HCI控制台失败的日志,判断是由于HCI控制台密码修改,但是SCP的对接信息未修改,导致一直产生登陆HCI失败日志以至于/sf/log/log_new.db这个文件大于200M,所以会自动清理日志 5. 根据操作日志刷新时间看,控制台显示离线时间也应是6月20号,是与其他主机一同关机,但这台主机当时未开机,由于操作日志不断刷新占满空间,导致告警日志自动从后往前清理,误以为是9月8日离线
结论:所有主机一同关机,但是单台主机未开机,并且日志空间被不断刷新的操作日志占满,从后往前自动清理了告警日志,误以为告警时间是控制台显示的最初时间 |