提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

一、问题概述:全部业务突然断网问题可能原因和排查思路概述

|

问题描述

一、【适用场景】
本预案适用于客户全网业务中断,导致客户的核心业务受到影响的情况,为此类事故提供标准化的恢复思路与步骤,支撑【内部专家】在此事故场景的【恢复阶段】尽快恢复业务,减小事故影响。

二、基本原则:
以优先恢复客户业务为第一要务,在业务恢复后在进行问题原因的排查

告警信息

处理思路:

有效排查步骤

一、业务恢复:
确认设备是否能登录:
1、设备无法登录:
①硬件问题:设备alarm灯红灯常亮,设备直连无法ping通,console接进不去,通过重启AF设备尝试恢复,若无法恢复,则想办法替换/跳开设备,保障业务正常
②软件问题:设备控制台登入端口被改,设备sangfor_waf进程异常等,详情请参考控制台无法登录

2、设备能正常登入:
①判断AF部署模式:
   a.透明/二层模式部署:开启二层直通/跳开AF测试,策略/物理上排除AF影响
   b.路由/混合模式部署:开启全局直通,排除AF策略影响
②确认问题出现之前是否做过什么改动:
    可通过恢复之前的配置来恢复业务
③获取数据具体走向,通过抓包判断问题并解决问题;
④若以上操作无法帮助您快速恢复客户业务,请及时收集下列解决方案中的信息转研发协助;

二、根因判断:(通过业务恢复的操作来判断根因,避免下次复现)
1、确认问题出现之前是否做过什么改动:
通过恢复之前的配置来恢复业务(开启直通未恢复业务),常见有:
①配置了错误的接口联动导致业务网口down
②配置了错误的地址转换策略导致数据
③应用控制策略开启了长连接导致连接数跑满
④配置了错误的路由导致路由出口走错
若无法获取客户之前改过什么配置,常见的错误配置也检测过了,可通过查看系统操作日志确定客户所改配置,或直接恢复昨天自动备份的配置(恢复备份配置会重启设备

2、获取数据具体走向,通过抓包判断问题并解决问题
①在AF的数据入接口抓包,判断数据是否到达设备;
PS:可通过抓取PING测试包和ARP包判断,未抓到包则可以判断为内网问题
②数据到达设备后,在AF的数据出接口抓包,判断数据是否正常被AF转发;
③AF未转发:检查地址转换是否有匹配数、ACL是否放通、出接口是否学习到下一跳的MAC地址
④AF正常转发:判断是否公网不回包导致,若数据发出未收到回包,则可判断为公网问题
PS:若客户有多个公网口,则需要每个公网口都抓一下看是否有回包,避免数据未源进源出导致

三、问题闭环:
1、定位根因并解决后,与客户确认所有业务是否正常,无问题则闭环工单

四、本事故处理过程中的场景错误是什么?
1、忽略业务重要性,没有考虑优先恢复业务
2、没有按照恢复指引把能操作的步骤都尝试完就走上升流程,调用专家和研发资源

根因

可能的原因:
一、环境问题:(通过抓包判断)
1、客户自身内网网络异常,数据未到AF上
2、客户外网线路异常,防火墙本身无法上网

设备问题:
一、硬件问题:
1、设备硬件故障,如:红灯常亮,无法登录设备(尝试重启设备恢复)

二、软件问题:
1、客户进行策略配置变更,调整策略配置导致断网(通过全局直通恢复)
常见有:配置了错误的应用控制策略、黑名单、联动封锁等策略导致断网
2、设备在出口时:路由失效、源地址转换失效、未学习到网关MAC导致断网(通过抓包判断)
3、设备接口丢失、设备硬件故障、系统宕机(分析黑盒判断)
4、误配置接口联动导致业务接口宕掉引起断网(检查系统操作日志判断)

解决方案

转400协助请提供以下信息:
1、问题现象以及背景描述(详细到问题发生的时间点):
2、设备版本信息:
3、问题出现前是否做过什么改动:
4、设备部署模式:路由/透明:双机主备/主主/单机
5、客户网络拓扑(标注接口位置):
6、具体流走向:数据流怎么经过AF,提供业务IP和测试方法
7、设备目前情况(比如有/无业务、业务是否恢复、是否上架等):
8、目前做过哪些排查:
哇哈哈哈哈哈 发表于 2023-4-14 16:21
  

楼主分享的案例很实用,具有典型性,希望有更多这样的干货供我们学习参考,非常感谢!

我要分享
文档编号: 222481
作者: admin
更新时间: 2023-04-10 10:55
适用版本: