AD主备切换问题说明
  

黄晓强14772 2774

{{ttag.title}}
问题现象
   在某公司负载均衡AD非交易DMZ链路健康检测故障的情况下,检测到设备频繁发生主备切换。
处理过程
1、查看设备接口链路健康状态,显示非交易区DMZ链路处于故障状态。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps1.png
2、在设备命令控制台,ping接口网关地址一直处于时通时不通的状态,在互连的交换机ping负载均衡非交易DMZ接口的IP地址也频繁出现时通时不通的状态。判断交换机接口聚合模式配置有问题。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps2.png
3、查看两台负载均衡系统日志,两台AD频繁出现监视器故障,又恢复健康。导致设备发生主备切换。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps3.jpg
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps4.jpg
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps5.jpg
4、协调排查交换机配置。确认链路检测故障原因为交换机配置的聚合为不协商模式,通过调整交换机配置后,接口检测故障问题解决。
结论
由于交换机聚合模式配置问题,导致负载均衡做链路健康检测时,始终有一条链路检测故障,链路状态在故障和健康状态频繁切换,导致当另外一台设备监视器恢复健康状态时,便立即发生的主备切换。
负载均衡双机健康检测及高可用原理说明
1、链路健康检测
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps6.jpg
使用ping进行健康检测时,以以上配置为例。每5秒发起一次ping测,当连续超过三次ping测,下一秒即认为设备链路故障。故障检测超时时间为15秒。一般情况,为避免由于链路网络不稳定导致频繁检测故障。使用推荐配置即可。建议结合插拔网线做健康检测。(注:备机不会主动发包探测,只有主机会主动发包探测)
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps7.jpg
2、主备切换机制说明。
(1)当启用故障切换时,根据条件,可选择任意设备故障时切换,或任意X个故障时切换。本次测试检测任意一条链路故障则进行切换。链路故障的判断标准以链路健康检测配置为准。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps8.jpg
(2)故障切换高级配置,设备同时检测本端及对端健康状态。自动清楚故障,为当备机业务监视器为故障状态时,等待配置的时间后监视器自动恢复成健康状态。
以下图配置为例,若主机和备机有一个接口始终为故障的状态,备机等待5分钟后,监视器状态恢复成正常状态。此时发生主备切换,备机切换成主机,由于备机切换成主机后,备机主动发包进行健康检测,若健康检测故障,则监视器恢复成故障状态,此时原先的主机监视器状态还是故障状态,无法进行主备切换。等待5分钟后,主机监视器自动恢复成健康。才能再次成功切换主备。此情况会导致当始终有一条链路故障的时候,每隔5分钟会进行一次主备切换。
当监视器级别只选择一个(本端或对端时),当主机故障,备机切换成主机后,由于只监视一端,即时主机监视器由故障恢复成健康,原先的主机也不会重新切换回主机,这种配置可以解决由于有一条链路接口故障,而导致频繁主备切换问题。但是这种配置,即使主机故障恢复,备机正常也不会触发切换。只有当设备接口状态发生改变时才会触发主备切换。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps9.jpg
(3)保护机制,当备机监视器状态为故障时,主机发生故障会先触发切换动作,但不会成功切换到备机。日志显示切换失败,原因为备机监视器故障。只有当备机监视器状态恢复成健康,才能成功切换。
file:///C:\Users\hxq\AppData\Local\Temp\ksohtml25092\wps10.jpg
3、配置建议
(1)设备主备模式部署时,若有多条链路,建议业务口与交换机做聚合交叉互连。为防止当有一路链路始终故障时频繁发生主备切换,监视器级别为只检测一端(本端或对端)。通过交叉互连可防止,当主机所连的交换机故障时,无法切换到备机,导致业务故障。只有当接口状态发生变化时才进行这边切换。
(2)AD接线模式为口字形时,监视器级别需要选择监视本端和对端。
AD新版本解决链路始终故障导致频繁主备切换问题。

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

dalichen 发表于 2020-12-23 23:36
  
感谢楼主的分享,涉及到设备与第三方设备进行聚合对接时,需要进行链路聚合的可靠性测试,确保链路聚合生效。建议楼主可以把截图重新整理下上传,期待楼主更多的精彩分享。
小猪要上树 发表于 2020-12-22 09:07
  

评论是对作者最大的鼓励! +8 S豆 详情>

感谢楼主的分享,更新一下图片吧
新手517002 发表于 2020-12-16 20:06
  
感谢楼主的分享
78465 发表于 2020-12-16 19:41
  
满满的干货,感谢分享
新手252194 发表于 2020-12-16 14:05
  
感谢楼主的分享
头像被屏蔽
新手899116 发表于 2020-12-10 11:12
  
提示: 作者被禁止或删除 内容自动屏蔽
Sangfor_闪电回_朱丽 发表于 2020-12-9 17:01
  
您好,感谢楼主的分享,内容中的图片没有显示出来,还请编辑下,将图上传并插入到内容中,谢谢!
发表新帖
热门标签
全部标签>
西北区每日一问
安全效果
【 社区to talk】
高手请过招
每日一问
社区新周刊
新版本体验
干货满满
产品连连看
纪元平台
标准化排查
技术咨询
GIF动图学习
信服课堂视频
每周精选
功能体验
解决方案
社区帮助指南
秒懂零信任
S豆商城资讯
自助服务平台操作指引
技术盲盒
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
原创分享
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
玩转零信任
信服圈儿
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
2023技术争霸赛专题
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
技术晨报
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力

本版达人

新手61940...

本周建议达人

zhao_HN

本周分享达人

ZSFKF

本周提问达人