本帖最后由 85039王毅波 于 2024-8-19 11:37 编辑
1.问题说明背景:计划对运维区1台虚拟网线部署的AF进行升级:AF的ETH4口下联运维区汇聚交换机,ETH6口和ETH7口做聚合agg1口上联锐捷两台核心S8610交换机(两台S8610做的VSU);在与客户沟通报备后在16:30-17:10进行升级。
问题:AF在完成从8.0.35版本升级至8.0.48版本后,AF上联口(ETH6口和ETH7口)线路未起来,S8610下联口2/3/22和1/3/22口无光发出,导致运维区业务不通。
原因简述:AF升级完重启过程中可能导致链路质量不佳,触发锐捷S8610交换机的链路质量检测保护机制导致S8610下联运维区AF的2/3/22口和1/3/22口关闭(shutdown),使得AF上联接口线路未起来,导致运维区业务不通。
解决方法:在客户授权许可下,登录锐捷S8610查看日志,发现接口关闭,重新打开接口(no shutdown)后业务恢复正常。锐捷S8610设备日志如下:
2.问题处理过程10月10日16:40分:完成升级前准备工作。电脑直连运维区AF设备ETH0管理口,进入AF的WEB端控制台,检查并备份设备配置;临时开启后台接入和SSH端口,深信服纪元平台巡检工具和sangfor update升级工具接入AF,检查AF详细版本,确认可直接升级至8.0.48版本,准备好AF8.0.48版本的升级包和升级前置检测包。 10月10日16:50分:完成纪元平台对设备的巡检,检查巡检结果无异常;与客户沟通后开始升级操作:使用sangfor update工具先对设备打AF8.0.48的前置检测包,前置检测通过后,开始升级AF8.0.48正式版本。 10月10日17:10左右,设备完成升级,AF的网络和服务均恢复正常,但是AF的上联链路未起来(ETH6口和ETH7口指示灯不亮),与客户确认运维区业务未恢复后及时进行AF接口和后台日志排查。
10月10日17:40分:AF排查接口和后台日志,硬件状态均正常。 10月10日18:00分:与客户排查AF与锐捷核心交换机S8610之间线路,更换光模块和接口测试,发现锐捷S8610接口光模块不发光,更换光模块后仍不发光;在客户授权下登录锐捷S8610核心交换机,查看系统日志和锐捷交换机接口配置,发现锐捷交换机接口关闭shutdown,在与客户和锐捷工程师确认和授权下,将锐捷交换机1/3/22和2/3/22口no shutdown后,业务恢复正常。
3.问题原因分析问题原因:AF升级完重启过程中,链路质量不稳定,触发S86系列交换机链路质量检测保护机制导致锐捷交换机接口shutdown。 4.解决措施详细描述当前的解决方法和最终达成的效果。 解决办法:登录锐捷S8610交换机打开接口,业务恢复正常。 后续类似情况两种规避方案: 1. 及时登录锐捷交换机,打开相应接口即可。 2. AF升级前将所有线路拔掉,升级完后再将线路恢复正常。
PS:华为交换机和锐捷交换机均存在类似问题。 |