|
【排障经验】AES分支部署时验证不通过故障排查全解
一、问题描述
在部署EDR(aES)分支节点并尝试将其与上级中心平台进行级联时,系统提示“验证不通过”或“连接失败”,导致分支节点无法成功注册到中心平台。
二、告警信息
管理界面提示:验证不通过、连接失败。
三、处理过程
遵循从外到内、从易到难的顺序进行系统性排查。
1、网络连通性与策略验证
检查端口通信:在上级平台服务器上,使用 telnet [下级分支IP] [端口] 命令,确认访问下级分支的HTTPS端口(默认443)是否通畅。
2、排查中间设备:若出现403错误或连接被拒,需检查防火墙、WAF等中间设备是否拦截了上下级平台间的业务流量。
3、确认基础网络:检查DNS解析是否正确,跨网段部署时确认路由可达。
4、检查SSH服务:确认上下级服务器的SSH服务均已开启,因为部分级联操作依赖SSH通道。
5、授权与配置检查
检查授权许可:登录上级中心平台,确认“分支节点授权”数量充足,未耗尽。
核对配置信息:仔细检查下级分支填写的上级平台IP/域名、端口是否完全正确。
校验接入密钥:确认复制的接入密钥(Token)准确无误,特别注意不能包含多余的空格或换行符。
硬件配置校验
检查硬件资源:针对aES 6.0.2R4及以上版本,需校验分支平台的硬件配置。
关键指标:
CPU核数、内存大小需满足分支规模要求。
CPU主频需 ≥1800MHz(可通过 cat /proc/cpuinfo | grep -i mhz 命令查看)。
磁盘读写性能及 /sf 分区空间需达标。
6、日志定位根因
若以上步骤均未解决问题,需登录上级平台后台,实时查看级联日志(/ac/var/log/linkage_sdk/log/)。
在前台触发验证操作,通过 tail -f 命令观察日志输出,根据具体的错误码或异常信息进行精准定位。
四、根本原因
经过上述排查,最终定位到根本原因在于网络策略配置不完整。
底层服务未开启:下级分支平台的SSH服务未启动,导致级联验证的底层通道无法建立。
防火墙策略限制:虽然基础网络(如Ping)可达,但在AF(防火墙)的VPN或安全策略中,并未明确放通EDR平台网段之间的业务流量,导致验证握手包被拦截。
五、解决方案
1、开启SSH服务:登录分支平台后台,启动SSH服务并确保其开机自启。
2、调整防火墙策略:在AF防火墙上,在VPN配置中,本地网段加上总部AES所在内网允许分支访问,确保业务端口通信不受限。
3、重新验证:完成以上两步操作后,返回管理界面重新发起级联验证,问题得以解决。 |