本帖最后由 神奇轱辘 于 2019-11-9 10:48 编辑
问题描述客户这边反馈网络异常,出口防火墙设备控制台无法正常登陆,期间出现网络中断,OA业务系统异常等现象。客户拓扑如下
故障排查 远程到客户电脑进行分析,发现防火墙web控制台无法打开,telnet 443端口不通,telnet后台端口22345正常,通过pshell连接后台查看,发现防火墙负载很高,内存不足。由于涉及后台操作,联系某公司400协助处理,通过后台收集黑匣子信息,抓包分析,发现内网有很多pc发大量的异常包,有很多【ACK】的包 这边通过ac上进行防火墙策略过滤,做了一个lan-wan的黑名单过滤,当时负载就下来了 然后登陆防火墙web控制台,发现内网有很多僵尸网络主机 期间经过进一步测试,发现防火墙还是有负载饱和现象,通过收集防火墙黑匣子信息,发现高峰时期,防火墙还有在处理应用控制日志的操作,短短几个小时,应用控制日志处理10w+条记录,目前鉴于设备性能的影响,把应用控制日志关闭,释放设备性能。 问题定位1. 内网很多僵尸主机,会发大量异常流量,导致设备负载很高,导致网络异常。 2. 出口af设备性能不足,目前已经关闭大部分功能,但是设备还是无法正常使用。 解决措施1.安全加固 由于当前防火墙设备是路由模式部署在出口,当设备负载高的时候,网络会卡慢,而且该设备属于高端产品,临时没办法站到合适备机,紧急调一台备机做业务分流。 将业务区域独立出口,并建立DMZ区域,连接核心作为内网区域,同时部署防火墙策略。 开启地域访问限制 开启安全防护策略 2.病毒处理 根据防火墙僵尸网络日志,将问题主机ip加入黑名单,然后进行补丁修复,病毒查杀。 经过一星期的封锁,查杀,目前网络已经恢复正常。 总结此次网络故障表面上是因为出口防火墙性能不足,导致负载高,主要根源还是因为内网存在大量僵尸网络主机,而且处理过程中发现,客户平时缺乏运维,pc都没有打补丁,导致内网病毒横向肆意传播,杀之不绝。 后续可以找个态势感知产品让客户体验一下。 经过此次事件,可以自信跟客户讲,运维多么重要,必要的运维服务投入是值得的
|