前几天,在登录深信服AC(上网行为管理)做定期备份的时候发现但最近发现主机和备机的数据对不上。深信服AC做了主主(双机热备)部署,[color=var(--color-fg-default)]最明显的表现就是,有些用户在主机上明明已经认证上线了,但在备机上却查不到记录;甚至有的AD域的用户组信息,两边也显示得不一样。
这要是真发生故障需要切换,备机根本没法无缝接管,网络肯定要出乱子。于是,我立马着手进行了一次“体检”排查。
第一步:先看“硬件”基础
既然两台机器要配合干活,首先得保证它们能正常“对话”。我先检查了主备设备之间的物理连线,确认心跳线插得稳稳的,网口灯也在正常闪烁。接着登录后台,确认两台设备的软件版本号完全一致。这一步很关键,因为如果版本不一样,就像两个人语言不通,肯定没法同步数据。基础检查下来,一切正常。
第二步:揪出“捣乱”的配置
在排查AD域用户组不同步的问题时,我发现了一个隐蔽的坑:节点AC因为之前的通信小故障,没能及时把AD域的组织结构同步过来。结果导致在主主设备进行全量数据同步时,备机把错误的、不完整的用户组信息当成了标准,强行同步到了主控上。这就好比一个传话筒自己听错了,还把错误的消息传给了所有人。
第三步:解决IP“撞车”事件
在处理主备切换异常时,我还发现了一个经典的配置失误。检查HA(高可用)口的配置时,我发现主机和备机的HA口竟然配置了同一个IP地址。要知道,在主备或主主模式下,HA口的地址是需要独立通信的,如果两台机器用了同一个IP,就会发生“IP冲突”。这就好比两个人都抢着当同一个职位,结果就是谁也干不了活,数据自然也就没法顺畅同步了。
处理过程与结果找到病灶后,处理起来就快多了。
首先,我让节点AC重新与AD域服务器进行了一次完整的通信,确保它本地的组织结构是最新、最全的,然后再触发一次主主之间的全量同步,用户组信息立马就对上了。
其次,针对IP冲突的问题,我修改了备机的网口配置,把那个重复的IP地址去掉,给它们各自分配了独立的“身份证”。
经过这一番操作,再次查看后台状态,主机和备机的在线用户数、认证信息、策略配置都已经完美保持一致。这场由配置疏忽和通信小插曲引发的“数据不同步”风波,总算是圆满解决了。
经验总结
这次排查也提醒我们,在做双机热备时,除了连线要通,细节配置(尤其是IP地址规划和第三方认证服务器的通信状态)绝对不能马虎。平时多留意一下后台的同步日志,就能把这些隐患消灭在萌芽状态。 |