本帖最后由 伞兵一号lbw 于 2022-12-15 11:42 编辑
一、问题背景描述 11月17日下午15:46客户反馈,办公室通过VPN隧道访问云上有持续丢包现象,持续1个多小时 二、问题影响范围 办公室通过隧道VPN访问云上卡慢丢包 1.托管云VPN作为分支(之前是作为总部的)接入到客户总部办公室VPN,因为分支主动连接通过云上出口ip:103.213.xxx.xxx去访问总部;当出口IP带宽跑满后(50M),就会出现隧道访问卡慢现象;原出口ip共享带宽为50M,把出口共享带宽调整为150M,业务恢复
3.2问题闭环解决方案
1.重新调整共享带宽分配,分配出口IP带宽为150M(托管云连接办公室);隧道业务的带宽为150M(阿里云连接托管云)
一、问题处置过程详情 4.1问题接收 1、客户15:46反馈,办公室通过VPN隧道访问云上有丢包现象 (1)云上机器ping阿里云正常
(2)云上机器ping办公室机器丢包
(3)深圳公网访问103.181.xxx.xx 4009(云上VPN) 正常
(4)深圳公网访问218.94.xxx.xx 4009 (客户VPN)正常
(5)办公室访问信服云内网丢包
(6)办公室访问阿里云正常
(7)办公室访问钉钉tim服务器正常
(8)办公室访问核心交换机正常
6、协调VPN专家,查看日志,VPN负载状态正常;临时切换VPN传输模式UDP改为TCP,延迟有缓解,但是还是存在丢包(17:00);因为更换传输模式隧道会断开重连,重连后释放之前的流量,所以换成tcp后带宽质量有缓解
7、查看VPN黑匣子,未出现异常
8、再次通过抓包分析平台流量,暂未发现异常
9、查看钉钉告警,4.09分有带宽跑满的告警;怀疑出口带宽跑满导致VPN访问卡慢(出口IP:103.213.xxx.xx(50M),公网访问VPN入流量走DNAT: 103.181.xxx.xx(250M))
10、通过分析VPN连接模式,之前托管云作为总部,办公室和阿里云作为分支接入到VPN业务IP(250M);如下图:
但是最近作了VPN连接模式改动,托管云作为分支接入到办公室总部(阿里云作为分支连接托管云总部),托管云分支走出口IP去连接办公室总部(50M);当出口IP带宽满载(50M),就会出现隧道内网访问卡慢现象;如下图
调整出口带宽为150M,恢复正常;当前重新调整:出口IP带宽为150M(托管云连接办公室);隧道业务的带宽为150M(阿里云连接托管云)
4.2问题分析定位
1、托管云VPN连接模式最近做了改动,托管云作为分支接入到办公室总部(原来托管云是作为总部端,阿里云和办公室作为分支接入);托管云分支走出口IP去连接办公室总部(50M);当出口IP带宽满载(50M),就会出现隧道内网访问卡慢现象调整出口带宽为150M,恢复正常;
4.3闭环措施
1、重新调整了云上出口ip带宽和VPN业务的带宽;出口IP带宽为150M(托管云连接办公室);隧道业务的带宽为150M(阿里云连接托管云)
|