×

AF搭建VPN隧道远程超融合中虚拟机卡慢
  

Sangfor_wxhhhhh 1726

{{ttag.title}}
本帖最后由 Sangfor_wxhhhhh 于 2023-12-12 10:52 编辑

一、问题描述
分支通过VPN远程超融合中部分虚拟机出现卡慢、且对接第三方设备IPSEC经常丢包

二、故障现象
分支通过VPN远程超融合中部分虚拟机出现卡慢、且对接第三方设备IPSEC经常丢包

三、故障分析结论

超融合层面排查

线索收集:通过HCI的WEB控制台进入虚拟机无卡慢现象


排查

1. 通过HCI控制台查看问题虚拟机9月11号晚7点左右的物理资源面板




通过面板得出:网卡、CPU、内存资源在异常时间段占用率平稳且不高,但是IO时延较高,所以主要关注虚拟机存储。








2. 通过ssh后台查看虚拟机9月11号磁盘日志

最后一列为磁盘繁忙度,可以理解为读写操作给磁盘造成的负担,部分达到100%,会影响虚拟机性能,尤其是会影响文件传输、程序加载等场景,了解到虚拟机使用外置存储,下一步查看外置存储控制台面板。

3. 登录DELL外置存储WEB控制台查看面板

9月11号晚7点左右读较高,写很低,面板数据有点解释不通,正常情况下应该写很高,读很低。客户方协调不到专业的DELL运维,先不对DELL做排查。


VPN层面排查


线索收集:平常IKEV1偶尔丢包,IKEV2和Sangfor VPN未出现网络波动,每次波动重启VPN服务后恢复正常


排查

1. 查看驭星分支IPSEC VPN配置

主模式下开启了NAT-T,了解到本端环境无NAT场景,对端环境是Fortinet防火墙+NAT场景,
IPSEC VPN不推荐主模式下使用NAT穿透,协商可能会出问题导致丢包,原因如下:


使用预共享密钥认证时,由于主模式通过对端IP地址来确认预共享密钥,若对端设备的IP地址经过了出口设备的NAT,则无法找到对端对应的预共享密钥,所以主模式在NAT环境中无法支持。野蛮模式不通过IP地址确认预共享密钥,IP地址经过NAT的转换,对查看预共享密钥无影响


2. 检查其他所有IPSEC VPN线路配置

目前已发现的:
a) 西安办和北京办在本端主模式情况下开启了NAT穿透(不推荐)
b) laoshan在本端未开启NAT穿透的情况下对端开启了NAT穿透(两端配置不一致)


3. 检查对端IPSEC VPN线路配置
由此得出两端DPD间隔和超时次数配置不同,超时时间也不同,会导致隧道两端状态不一样形成隧道黑洞。


存活机制:
1. IPSEC隧道有效期是根据生存时间/超时时间来计算的,过期会重连
2. DPD机制可以向隧道对端探活


丢包逻辑:
1. 隧道端A过期或意外断连,但是隧道端B还没过期所以隧道还在(两端过期时间不同)
2. 两端不在同隧道内,导致某一端发包丢包(隧道黑洞)
3. 通过DPD机制探活,隧道端B关闭目前隧道,重新和隧道端A拉起隧道
4. 恢复通信,丢包重传

PS:因两端超时时间和DPD探活周期、次数都不同,会导致隧道两端状态不一致,可能会导致频繁的丢包重传

四、解决方案
1. 建立IPSEC VPN两端设备强烈建议使用相同配置(包括模式、超时机制、DPD机制等)
2. 检查所有IPSEC VPN线路本端和对端配置是否一致
3. 配置IKEV2,相比较IKEV1,配置更简单、通信更安全、带宽占用更小

五、建议与总结
此问题多发生在IPSEC隧道两端设备为不同厂家的场景,在使用IKEV1时需要仔细检查两端的配置是否一致,建议切换IKEV2或SANGFORVPN,配置较为简单,很少出现配置不一致的情况。

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

张栋栋 发表于 2023-12-13 14:14
  
6666干货满满
发表新帖
热门标签
全部标签>
每日一问
新版本体验
【 社区to talk】
技术咨询
安全效果
功能体验
纪元平台
产品连连看
标准化排查
GIF动图学习
干货满满
技术笔记
问题分析处理
社区新周刊
安装部署配置
技术晨报
自助服务平台操作指引
技术盲盒
高手请过招
信服课堂视频
专家问答
运维工具
华北区交付直播
排障那些事
西北区每日一问
答题自测
在线直播
每周精选
畅聊IT
技术圆桌
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
社区帮助指南
答题榜单公布
2023技术争霸赛专题
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
山东区技术晨报
文档捉虫活动
齐鲁TV
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
故障案例库

本版版主

13
5
2

发帖

粉丝

关注

本版达人