摘要 本文档为深信服防火墙、负载、上网行为管理、XXXXX(具体设备按照客户实际情况来编辑)等设备业务中断应急处理手册,旨在业务运行环境突发业务中断时,在我司工程师到达现场之前为IT运维人员提供应急处理指导。本文档内操作均以最短时间内进行故障排除、业务恢复或设备正常运行为第一要务。 目的 XXXXX集团/公司防火墙、负载、上网行为管理、XXXX(具体设备按照客户实际情况来编辑)等设备预案,是针对深信服公司具体硬件型号(负载)、具体硬件型号(防火墙)、具体硬件型号(上网行为管理),在我司工程师到达现场之前为IT运维人员提供应急处理指导。本文档内操作均以最短时间内进行故障排除、业务恢复或设备正常运行为第一要务。 使用对象 XXXXX集团/公司深信服产品维护人员。 适用场合 XXXXX集团/公司深信服产品出现紧急故障。
1 网络现状分析1.1 XXXXX集团/公司组网图客户全量拓扑/深信服设备部署拓扑 1.2 设备命名描述设备命名表 1-1 1.3 设备管理地址描述
设备管理地址表 1-2 2 应急措施2.1 总体应急措施根据事件后果的 严重程度可以划分为3个等级,其中特大事件危害程度最高,普通事件危害程度最低,各级事件的描述如下: 故障等级 | | | | | | | | 一般故障,不影响系统的整体运行,不影响大部分用户的使用。 |
故障等级定义表 2-1 应急响应流程图如下:
file:///C:/Users/Sangfor/AppData/Local/Temp/msohtmlclip1/01/clip_image003.gif 应急响应流程图 2-2 重要节点标注(流程图节点解释): ①业务故障:评估参照“故障等级定义表 2-1”; ②收集故障相关信息:在深信服人员未到现场或联系深信服人员处理紧急问题前所需整理的一些基本信息,包括但不限于故障影响范围、故障现象、故障前有无修改相关配置等信息,具体可参照2.3.2和2.3.3节; ③应急预案:通过预案编制,可以在XXXXX(具体设备按照客户实际情况来编辑)、XXXXX(具体设备按照客户实际情况来编辑)设备发生故障后,能快速有效地控制并处理,以保障山东XXXXX集团/公司 生产&数据中心&互联网出口的有效运行,减少深信服技术人员未到现场之前因设备故障而造成的影响和损失(紧急预案可参照第二章具体内容); ④拨打电话:xxx xxxxxxxxxxxx,深信服二线4006306430(具体联系方式) ⑤处理故障:此处故障处理是指深信服内部问题处理流程和机制,保障山东XXXXX集团/公司业务最短时间内恢复并解决故障; ⑥内部上报重大:可参照⑤步骤中问题升级处理流程; ⑦故障回溯:包括但不限于故障的发生时间、原因定位、故障处理、预案执行、故障解决等的关键人与关键时间点。让出现过的故障处于解决或可控的状态,对流程和产品进行改进、提升设备稳定性; ⑧汇报及改进措施:事件的整体复盘及后续深信服针对山东XXXXX集团/公司改进举措; ⑨问题管理表:记录问题发生时间、现象及解决方案,便于应急处置及设备运行状态的回溯;
故障的四个关键点: 2.1.1 Who 问题对象1)对于单个业务的问题,可关注以下方面: 关注故障业务的特征 故障业务物理/虚拟机服务器进程 承载此业务物理机/虚拟机网络问题 客户端环境是否发生改变
2) 对于一组业务问题或所有业务问题,可关注以下方面:
设备软硬件问题: (1)正常情况下,网口右灯在感知到电/光信号的时候会呈绿色(千兆链路,如果是百兆链路,该灯会成橙色)且常亮,网口左灯在有数据通过的时候会呈绿色/橙色且会不停闪烁,如果右灯或者左灯不闪或者不亮,请按照如下步骤进行操作: 1.检查该网线是否破损; 2.检查网口水晶头是否有破损; 3.检查网卡双工模式是否协商匹配; 4.上述均没有问题,请及时重启设备切换主备,并及时联系深信服技术支持工程师。
(2)硬件设备正常工作时POWER灯常亮,设备的ALARM灯只在设备启动时因系统加载会长亮(大概1~5分钟),正常工作时熄灭。如果在使用过程中此灯长亮,且设备无法正常使用请按照如下步骤进行操作: 1.请立即将设备断电关闭,将系统切换到备机; 2.半小时后将设备重启,若重启设备后ALARM灯仍一直长亮不能熄灭,请速与深信服技术支持工程师取得联系,确认是否设备损坏。 设备另个灯是HA灯,只有双机状态下才可能亮。如果设备以双机热备部署,主机HA灯会常亮,备机HA灯会以规律闪烁标识当前状态。 (3)检查设备控制台是否可以登录,若直连设备都无法登录或ping通设备管理地址,及时联系深信服技术支持工程师。
网线/光纤问题: 是否在调试其它设备时触碰到设备光纤或网线导致物理线路故障问题
策略问题: 再出现故障之前是否对设备策略进行调整,若进行调整请立即恢复至原有策略并联系深信服现场技术支持、反馈至微信管家群聊或4006306430配合您配置策略;(若修改配置无法登录控制台许到现场连接设备管理口manage进入控制台恢复策略) 2.1.2 What 问题类型1)对于完全连通性问题,可关注以下方面: 深信服产品硬件故障 网络/业务网元故障 上下联其它设备故障
2)对于部分连通性问题,可关注以下方面: 安全策略问题 此部分应用策略控制权限问题 Vlan及相关子网路由设置问题
3)对于性能问题,可关注以下方面: 网络拥塞 策略设置(非最优策略,大量非必要策略消耗性能) 路由环路 供电不足 非最佳路由 防火墙CPU、内存利用率高 2.1.3 When 问题时间1)对于间歇性问题,可关注以下方面: 网络拥塞或广播风暴 路由环路 远端网络/业务网元故障 网络介质质量差
2)对于刚刚发生的问题,可关注以下方面: 新的硬件故障或介质故障 新增设备或拓扑改变 安全策略配置改变 路由协议发生变化 2.1.4 Where 问题根据具体事件来做判断 2.2 应急维护原则应急维护以快速恢复设备的正常运行与业务的提供为核心。 当系统或设备发生紧急事故时,维护人员应保持镇静,检查硬件设备、路由等运行是否正常,判断事故的起因是否由深信服设备引起,具体方案请参照“第三章单产品线应急手册”章节进行故障处理。 在发生紧急事故时,为保护深信服设备的重要数据信息,在深信服的技术服务人员提供帮助之前,严禁对设备存储介质执行恢复出厂设置的操作。 2.3 深信服内部事件处理流程file:///C:/Users/Sangfor/AppData/Local/Temp/msohtmlclip1/01/clip_image005.jpg 2.3.1 向深信服通报事故用户支持邮箱:support@sangfor.com.cn 技术支持热线电话:400-630-6430(手机、固话均可拨打) 深信服社区:bbs.sangfor.com.cn 技术支持在线咨询:进入深信服官网或深信服社区,选择在线咨询 技术支持7*24小时智能机器人: ①进入深信服社区,页面右侧悬浮框进入“智能客服” ②关注微信公众号“深信服技术服务”,选择深信服社区-智能服务 ③深信服济南办技术服务工程师(详细见2.4节) 2.3.2 确定故障类型①确认是个别用户还是所有用户 ②检查设备硬件红灯是否常亮 ③检查控制台是否可以登录
2.3.3 收集故障信息① 收集版本信息 ② 收集网关/KEY ID ③ 问题故障现象/需求确认 ④ 业务是否恢复 ⑤ 故障出现规律 ⑥ 出故障前的操作 2.3.4 特殊处理故障当出现大面积业务故障的情况下,请直接联系深信服工程师处理即可。 2.4 全天24小时技术支持中心用户支持邮箱:support@sangfor.com.cn 技术支持热线电话:400-630-6430(手机、固话均可拨打) 深信服社区:bbs.sangfor.com.cn 技术支持在线咨询:进入深信服官网或深信服社区,选择在线咨询 技术支持7*24小时智能机器人: ①、进入深信服社区,页面右侧悬浮框进入“智能客服” ②、关注微信公众号“深信服技术服务”,选择深信服社区-智能服务 ③、深信服济南办技术服务工程师 2、济南办责任人联系方式:
3 单产品线应急操作手册此章节涉及XXXXX集团/公司XXXXX、XXXXX、XXXXX设备,以下为各个产品线应急操作手册: |