高可用集群一般分为出口网关链路负载和旁挂集群应用负载
链路负载
1、网关链路负载,大多数问题是应用组切换后网络不通导致异常,常见的为无法上网。
2、无法上网,先理清楚数据流,主要关注和AD互联的设备,默认路由下一跳的指向的ip地址、设备本身要实现能上网的话需要的配置有智能路由和静态路由和NAT配置。路由这两个和应用组无关。只要源目没有配置错误,就无需考虑应用组切换问题、需要关注的点是snat和浮动ip。
3、检查snat和浮动ip关联的应用组以及应用组的生效设备。
案例1:
客户内网部分服务器需要指定ip地址出去上网,应用组切换以后,部分业务不正常了,提示ip地址不对。
客户指定配置的snat,管理在应用组1上,应用组1从A设备切换到B设备以后,服务器也异常了,提示ip地址不对。
检查客户的路由发现客户的内网路由是指向A设备的内网口静态ip的,而不是应用组1关联的内网口ip地址,导致应用组切换以后,客户内网服务器还是发包到设备A去上网,但是NAT没有在设备A上了,导致异常。
案例2:
还是以上的背景,客户内网的路由没有问题。但是指定的nat配置,指定的地址有问题,是一个静态ip地址。且是A设备的静态ip。应用组切换以后,B这边还是能转换为指定的地址出去,但是公网回包的时候异常了,回到了A设备上,因为地址在A设备上。由于A设备没有对应的链接跟踪,导致无法转发数据。
旁路应用负载
应用负载切换后业务异常,主要关注虚拟服务生效位置、虚拟服务本身的snat和网络配置的snat以及客户内网路由指向。
案例1:
客户使用192.168.10.10为vip发布的虚拟服务,原本虚拟服务所在的应用组1生效在A设备上,但是切换到B设备以后,无法访问了。
咨询客户交换机上访问192.168.10.10的路由的下一跳是什么地址,得知是指向192.168.10.1,。检查这个ip地址发现是A设备的静态ip。所以应用组切换以后,导致业务异常
案例2:
还是上面的背景,客户路由没有问题,但是客户虚拟服务选择的自动snat,自动snat转换为的是设备出口的随机一个地址。
设备接口上抓包发现设备转发数据包以后,没有应答。和客户核实转换后的源ip地址,对应虚拟服务的服务器区没有放通导致异常。