本帖最后由 贺智文 于 2022-11-15 15:12 编辑
【问题现象】 1.早上客户反馈好多用户拨VPN上不去,显示网络异常。前一天打过一个安全加固包,但是这个包正常没有任何影响
2.VPN控制台看有部分用户在线,查看集群状态发现分发器状态显示停止 3.首页查看VPN状态一会停止一会运行中 4.大面积影响业务了,当即决定两台设备硬件重启,重启后,业务恢复正常 5.业务恢复后查原因,首页看到有切换信息 6.取黑匣子分析,集群切换导致svpn服务重启 7.查看shellcall有一直在拉起svpn服务器,但是ps里面看进程有被拉起,只是经常被脚本检测443响应不过来,所以重启svpn服务。手动检测443也无响应,查看svpn进程正常,但是没有看到监听443端口. 8.df -h看到设备/tmp空间不足,所以引发svpn服务异常,tmp目录会存放集群同步产生的一些临时文件,TMP空间不足会导致集群异常 分析/tmp目录是从20221108 20点左右开始涨,之后一直没有下降的趋势,此时间正好是实施ids包的时间 9.查看ids的目录,无法进入目录,文件也不存在,所以初步怀疑是文件打不开导致无法正常删除,导致空间无法释放 【问题原因】
ids目录无法正常进入和打开ids文件(正常是能够打开的),所以导致ids无法正常删除这些产生的临时文件,导致tmp目录使用率一直上涨,最终导致100%,引发业务异常。
【下一步计划】
已经回滚hids包,目前看tmp目录使用率没有上涨了,继续使用观察下 |