本帖最后由 Sangfor_wxhhhhh 于 2023-12-12 10:52 编辑
一、问题描述 分支通过VPN远程超融合中部分虚拟机出现卡慢、且对接第三方设备IPSEC经常丢包
二、故障现象 分支通过VPN远程超融合中部分虚拟机出现卡慢、且对接第三方设备IPSEC经常丢包
三、故障分析结论
超融合层面排查
线索收集:通过HCI的WEB控制台进入虚拟机无卡慢现象
排查:
1. 通过HCI控制台查看问题虚拟机9月11号晚7点左右的物理资源面板 通过面板得出:网卡、CPU、内存资源在异常时间段占用率平稳且不高,但是IO时延较高,所以主要关注虚拟机存储。
2. 通过ssh后台查看虚拟机9月11号磁盘日志
最后一列为磁盘繁忙度,可以理解为读写操作给磁盘造成的负担,部分达到100%,会影响虚拟机性能,尤其是会影响文件传输、程序加载等场景,了解到虚拟机使用外置存储,下一步查看外置存储控制台面板。
3. 登录DELL外置存储WEB控制台查看面板 9月11号晚7点左右读较高,写很低,面板数据有点解释不通,正常情况下应该写很高,读很低。客户方协调不到专业的DELL运维,先不对DELL做排查。
VPN层面排查
线索收集:平常IKEV1偶尔丢包,IKEV2和Sangfor VPN未出现网络波动,每次波动重启VPN服务后恢复正常
排查:
1. 查看驭星分支IPSEC VPN配置 主模式下开启了NAT-T,了解到本端环境无NAT场景,对端环境是Fortinet防火墙+NAT场景, IPSEC VPN不推荐主模式下使用NAT穿透,协商可能会出问题导致丢包,原因如下:
使用预共享密钥认证时,由于主模式通过对端IP地址来确认预共享密钥,若对端设备的IP地址经过了出口设备的NAT,则无法找到对端对应的预共享密钥,所以主模式在NAT环境中无法支持。野蛮模式不通过IP地址确认预共享密钥,IP地址经过NAT的转换,对查看预共享密钥无影响
2. 检查其他所有IPSEC VPN线路配置 目前已发现的: a) 西安办和北京办在本端主模式情况下开启了NAT穿透(不推荐) b) laoshan在本端未开启NAT穿透的情况下对端开启了NAT穿透(两端配置不一致)
3. 检查对端IPSEC VPN线路配置 由此得出两端DPD间隔和超时次数配置不同,超时时间也不同,会导致隧道两端状态不一样形成隧道黑洞。
存活机制: 1. IPSEC隧道有效期是根据生存时间/超时时间来计算的,过期会重连 2. DPD机制可以向隧道对端探活
丢包逻辑: 1. 隧道端A过期或意外断连,但是隧道端B还没过期所以隧道还在(两端过期时间不同) 2. 两端不在同隧道内,导致某一端发包丢包(隧道黑洞) 3. 通过DPD机制探活,隧道端B关闭目前隧道,重新和隧道端A拉起隧道 4. 恢复通信,丢包重传
PS:因两端超时时间和DPD探活周期、次数都不同,会导致隧道两端状态不一致,可能会导致频繁的丢包重传
四、解决方案 1. 建立IPSEC VPN两端设备强烈建议使用相同配置(包括模式、超时机制、DPD机制等) 2. 检查所有IPSEC VPN线路本端和对端配置是否一致 3. 配置IKEV2,相比较IKEV1,配置更简单、通信更安全、带宽占用更小
五、建议与总结 此问题多发生在IPSEC隧道两端设备为不同厂家的场景,在使用IKEV1时需要仔细检查两端的配置是否一致,建议切换IKEV2或SANGFORVPN,配置较为简单,很少出现配置不一致的情况。 |