一、业务恢复:
确认设备是否能登录:
1、设备无法登录:
①硬件问题:设备alarm灯红灯常亮,设备直连无法ping通,console接进不去,通过重启AF设备尝试恢复,若无法恢复,则想办法替换/跳开设备,保障业务正常
②软件问题:设备控制台登入端口被改,设备sangfor_waf进程异常等。
2、设备能正常登入:
①判断AF部署模式:
a.透明/二层模式部署:开启二层直通/跳开AF测试,策略/物理上排除AF影响
b.路由/混合模式部署:开启全局直通,排除AF策略影响
②确认问题出现之前是否做过什么改动:
可通过恢复之前的配置来恢复业务
③获取数据具体走向,通过抓包判断问题并解决问题;
④若以上操作无法帮助您快速恢复客户业务,请及时收集下列解决方案中的信息转研发协助;
3 查看授权信息
二、根因判断:(通过业务恢复的操作来判断根因,避免下次复现)
1、确认问题出现之前是否做过什么改动:
通过恢复之前的配置来恢复业务(开启直通未恢复业务),常见有:
①配置了错误的接口联动导致业务网口down
②配置了错误的地址转换策略导致数据
③应用控制策略开启了长连接导致连接数跑满
④配置了错误的路由导致路由出口走错
若无法获取客户之前改过什么配置,常见的错误配置也检测过了,可通过查看系统操作日志确定客户所改配置,或直接恢复昨天自动备份的配置(恢复备份配置会重启设备)
确认配置信息
2、获取数据具体走向,通过抓包判断问题并解决问题
①在AF的数据入接口抓包,判断数据是否到达设备;
PS:可通过抓取PING测试包和ARP包判断,未抓到包则可以判断为内网问题
②数据到达设备后,在AF的数据出接口抓包,判断数据是否正常被AF转发;
③AF未转发:检查地址转换是否有匹配数、ACL是否放通、出接口是否学习到下一跳的MAC地址
④AF正常转发:判断是否公网不回包导致,若数据发出未收到回包,则可判断为公网问题
PS:若客户有多个公网口,则需要每个公网口都抓一下看是否有回包,避免数据未源进源出导致
三、问题闭环:
1、定位根因并解决后,与客户确认所有业务是否正常,无问题则闭环工单
四、本事故处理过程中的场景错误是什么?
1、忽略业务重要性,没有考虑优先恢复业务
2、没有按照恢复指引把能操作的步骤都尝试完就走上升流程,调用专家和研发资源