提示
X
本案例来自tskb,请前往tskb修改源内容:立即前往
'>

四、高阶排查:分析设备负载,分析网络环境做变量排除

|

问题描述

过AF测速速度上不去、测速慢、下载慢等

有效排查步骤

1、分析设备内存占用情况
free -m 查看内存占用,如空闲内存过低,容易引发iowait占用CPU

2、分析设备CPU占用情况
pro_cpu_use查看CPU占用情况
idel是cpu的空闲情况,如果达到为0,则CPU占满没有空闲
iowait是硬盘数据读写占用,如果过低一般是日志记录多或者内存过低导致:可以查看是否有开启了网关杀毒或日志记录,可以先禁用杀毒与日志记录功能,看是否有下降
soft  占用高,需要看下是否流量比较大或接口pps流速大
usr占用高,常见为进程占用
单核CPU空闲为0也是一样会影响的
进程显示如是ad_appd占用高,则是安全防护进程占用

3、iotop 命令可以查看iowait被进程占用情况

4、soft占用高导致CPU跑满,需要分析是小包数据多导致还是大流量测试导致,如小包流量过大,需要用户换平均包长800字节以上数据测速,AF性能是基于800字节测试出来的。
(1)使用脚本perfinfo获取设备当前接口流量信息,分析是否性能跑满还是小包流量过多
操作方法:
a.上传perfinfo到/var/tmp目录
b. 执行命令
   chmod +x /var/tmp/perfinfo
   /var/tmp/perfinfo
c. 截图获取相关信息,提供给研发分析。
相关说明:日志包含pro_cpu_use,安全模块配置情况,10秒的流量统计情况,参考附件图片。
支持自动识别eth网口并统计流量和平均包长(Total行,rx_apl字段,单位Byte),参考选型指标平均包长800字节,对比是否达到性能上限值,不会重复统计vpntun口流量到总体计算里。
一般soft%超过30%的都基本超过功能全开的选型了。
只开启部分功能的超过40%的也有性能边缘风险。
功能基本没开的超过50%的也会有风险

(2)对应接口抓包,看是否数据包都是相同五元组数据,如相同五元组数据会分配到同一个CPU上,导致CPU单核跑满,流量上不去;此时可以让用户多找几个电脑测试


5、分析网络拓扑,AF与前后设备是单个物理口还是做了端口聚合、是光口还是电口,可以更换接口测试、聚合口下先不做聚合,直接做单个接口测试;分析中间设备是否有影响,如中间是否有其他安全设备、交换机之类,可以进行变量排除测试,如尝试跳过中间设备,直接电脑接到AF上进行测试;或同样网络环境下跳过AF进行对比测试;





解决方案

若上述排查为解决您的问题,可以收集以下信息转到L3:
联系技术支持建议提供以下信息:
1、设备型号、故障现象描述与测速方法:
2、设备部署模式与数据流转发路径(路由、透明、双机):
3、网络拓扑信息、变量排除测试:
4、开后台bypass后是否正常:
5、接口状态是否正常:
6、提供perfinfo运行日志:
7、提供设备负载占用情况截图:

我要分享
文档编号: 230891
作者: admin
更新时间: 2023-01-05 17:29
适用版本: