|
一、问题现象
2025年XXX,客户出口防火墙备机从8.0.75版本升级至8.0.107版本后,出现切换至升级后的设备承载业务时,从外向内访问所有业务异常(FTP及Web业务访问缓慢整体卡慢,零信任业务不可用)、内到外无法上网无法访问云端域名等现象(XX中心)。
二、问题处理过程 1. 2025年6月8日,客户将一台设备升级至8.0.107后反馈切换至升级设备承载业务时,出现部分业务异常、整体卡慢、零信任不可用、FTP访问缓慢等问题,切回8.0.75设备后业务恢复,获取黑盒日志进行分析; 2. 根据抓包与黑盒结果分析,确认CPU正常、黑盒无明显丢包点、数据面未见明确转发时延;但业务侧仍反馈FTP、Web及零信任业务卡慢或不通。研发提出进一步通过长ping、进出口抓包、视频录屏、主备切换复现、二层直通测试等方式缩小问题范围。 3. 2025年6月10日至6月11日,结合客户受限窗口,远程与夜间测试。期间对AF8.0.107、AF8.0.75及下联IPS进行对比观察,逐步发现部分现象与防火墙自身转发能力不完全匹配,开始怀疑客户侧外部网络环境、MAC识别及地址绑定相关因素。 与客户再次梳理网络拓扑和内到外、外到内流量访问情况,逐台设备排查,防火墙上下联的对端设备大致信息如下(涉敏业务等信息不在本报告体现) : 4. 2025年6月11日15:30左右,现场同事进一步核查接线后,确认近24小时内的大面积卡顿丢包(约20%以上的丢包)问题与接线错误有关:AF主备两台设备心跳线未接,但主备机上下联口同时接线,导致转发冲突及丢包。现场将备机相关业务线缆拔除后,持续观察1小时未再出现该类丢包,业务恢复正常;截止6月18日业务均正常。 5.2025年6月11日当晚19:00 分开始,现场同事和客户配合深信服研发团队继续围绕升级后切换异常问题开展深度验证。通过反复相关设备抓包、检查交换机配置及外部网络设备联动分析,确认深信服防火墙上联设备(深信服上联对端华三交换机设备的上联设备)对来自防火墙的流量存在基于IP-MAC关系的识别与放行限制(类似准入控制),回包仍指向8.0.75版本的防火墙设备实地址,未能正确返回至升级后的107版本防火墙设备。 6. 2025年6月12日上午,研发结合配置进一步确认,客户现网采用双机主备备份方式承载多地址WAN口业务,同时上游环境存在IP-MAC绑定/准入控制;而85版本开始虚MAC计算方式发生变化,导致升级到107后虚MAC与75版本不同,客户原有基于75虚MAC建立的绑定关系失效,最终引发切换到107设备后外到内、内到外等多类业务异常。 7. 在问题根因彻底确认清楚后,我们向客户同步处理结论及后续建议:客户接受先以107版本设备单机承载业务运行至7月份观察,8.0.75版本的防火墙暂时不动做备用;如运行稳定,7月初再将原8.0.75版本升级,并以8.0.107版本的AF设备为主机重新组建主备镜像模式,同时同步WAN口和LAN口配置,不再使用原有双机备份+实IP承载方式。
三、 根本原因分析 客户现网采用双机主备备份方式承载WAN口多地址及业务实IP,防火墙上游的网络设备存在严格的IP-MAC绑定准入策略;而AF自85版本开始虚MAC计算方式发生变化,升级至107后虚MAC与75版本不一致,原有绑定关系失效,导致双机切换后业务异常。 四、 解决方案 首先手动将8.0.107版本的物理接口的IP和MAC改成 和之前8.0.75版本的虚拟IP 和MAC一致,然后先由8.0.107版本单机承载业务观察,后续将原8.0.75版本升级后以8.0.107设备为主机,按主备镜像模式组网,同步WAN/LAN口的配置,避免继续沿用原双机备份+实IP+旧绑定方式。 |