本帖最后由 给所有的烦恼说海海 于 2024-11-19 09:03 编辑
零信任分布式集群问题分享
客户3个地区的零信任搭建分布式集群,发现A地区和B地区正常,C地区加入集群报错
检查版本发现的确有不一致的情况
删除不一致的版本后在次报错
检查白名单地址发现,所以设备的IP都有加白 在两边设备进行端口telnet发现主控A——>C 单向442端口不通
通过抓包发现C地设备收到包,但是不知道回包到哪里去了
后续二线抓包发现,回包到了心跳口
后续通过研发确认,是由于心跳口IP一致导致的这个问题
二线的回复:“和研发确认,atrust组件分布式集群,各个节点的本地集群ha地址都不能一致,以为底层的vrrpid计算是通过ha地址来计算的,一致会导致冲突”
但是很奇怪的点是,A和B的心跳口IP也一直,但是分布式集群也是正常的,最后通过更改心跳IP确实解决了,但是确实不太理解这个底层逻辑。
因为文档里面没有说明,客户为了方便管理,就统一了心跳口IP,结果发现分布式集群会有问题,也给大家避个雷。 |