提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

分析黑匣子确认具体情况

|

问题描述

分析黑匣子确认具体情况

解决方案

一、查看重启前的黑匣子里的reboot文件,只要有这个文件就说明是通过命令重启的,接下来就去reboot文件看是哪里reboot的, reboot文件会记录重启时的ps详细信息,定位出重启原因
如下图,这个则显示是通过界面重启的设备


二、查看是否有当天的宕机日志:lkcd_cnf -r     lkcd_info -r
有宕机,可以先升级到最新版本,如果无法升级,取宕机日志下来给专家和研发确认宕机原因

三:判断是不是400天自动重启,通过查看uptime的时间
如果是400重启,可以后台查看/ac/etc/config/reboot.conf文件,如果还是400
则看预警处理:YJ20181129001

四、查看dmsg文件中是否有call tracel以及soft lockup进程死锁的记录
检查重启前负载是否高,查看 CPU、内存、uptime,画流量图看是否有异常流量
如果是负载高请按照负载排查文档排查:http://tskb.sangfor.com/plugin.p ... detail¬e_id=1906

五、观察重启时候的黑匣子间隔时间,如果重启前后黑匣子since-180804-111129时间间隔很短一分钟,就有可能是断电引起的重启

我要分享
文档编号: 222903
作者: admin
更新时间: 2023-01-05 17:29
适用版本: