本帖最后由 猫仔粥哩 于 2022-9-28 09:49 编辑
一、问题处理背景 1.1 问题现象描述 某客户天翼云上租户业务出现严重丢包影响客户业务。 1.2 设备描述 CSSP4.0.2单臂部署场景。 二、故障原因分析 1、根据CSSP告警,发现192.168.202.17这台主机vxlan网口从上午9点开始频繁掉线告警,Vxlan网口大量丢包。 2、查看192.168.202.17这台主机,发现核心路由器和边界路由器都运行在此台主机上,所有租户流量都先到17 再转发给其他主机上的虚拟机,所以导致丢包。 3、根据流量趋势观察,上午丢包期间业务口流量达到300多M,由于内部使用vxlan网络进行流量转发时vxlan网口会来回传输业务流量,因此vxlan会达到900M/s的速率。 4、由于CSSP Vxlan网口没有按最佳实践作端口聚合,且使用了千兆电口。导致带宽占用接近100%,因此出现严重丢包。 三、问题原理分析 1、由于安全资源池内部存在大量的租户路由器,从交换机过来的流量需要匹配不同的策略路由; 2、同时由于核心路由器开启了HA调度,在主机资源过高情况下会随机调度,因此调度过程中会导致网络丢包; 3、造成内部转发流量过大,因此按照最佳实践,安全资源池需要着重保障VXLAN流量带宽。 四、总结 1、安全资源池在多租户高并发且存储资源需求不大场景下优先保障业务/VXLAN网口带宽,推荐业务/vxlan万兆,存储、管理千兆。 2、业务流量不大且存在多审计设备需要大量存储资源的场景下,存储/vxlan万兆,业务/管理千兆 |