一、问题概述 客户反馈新建的 4 台数仓云主机在运行任务时提示运行失败,供应商排查反馈新建的云主机网络带宽不稳定,带宽爆满导致运行任务失败,同时还存在丢包情况。 二、故障截图 磁盘IO延时达到826ms 黑盒日志LOG_iostat里面磁盘有许多util接近100% HCI告警日志显示云主机会话超过告警阈值 三、故障原因分析【1】通过排查平台流量和会话数,发现平台存在流量有突增,虚拟机会话连接数量超过 10 万条的告警,初步判断为网络性能转发问题,调整平台用于数据转发的核心数。 【2】通过进入虚拟机中查看虚拟机日志以及IOSTAT 状态,发现虚拟机的写时延很大,初步判断虚拟机内部负载过高,影响了收发包。 【3】通过后台日志分析,发现存在在高延时时,存储网络存在网络高延时,分析当前 IOPS 性能瓶颈可能来 源于存储网络转发瓶颈,过协调网络组专家在交换机以及 SRE 在平台侧 抓包确认,当前主要问题是存在于平台突发流量时候,物理网卡 ETH5 转发达到了10G 上限,将聚合网口单个网口跑满,导致丢包。 四、解决方案 【1】优化网络转发性能,HCI修改转发核心数为4C,内存调整为8G【2】优化云主机基数(磁盘将动态分配改成预分配,CPU独占,启用HostCPU,打开大页内存)【3】集群存储网的聚合模式为mac地址负载,mac地址负载有可能会导致某个口流量很大,导致丢包或者时延大,需要修改成四层负载。 五、操作影响范围 【1】业务流量断开10秒左右 【2】重启云主机 【3】影响整个超融合集群 六、注意事项无 |