云主机业务流量丢包
  

Forever丶BFD 5468

{{ttag.title}}
一、问题概述
客户反馈新建的 4 台数仓云主机在运行任务时提示运行失败,供应商排查反馈新建的云主机网络带宽不稳定,带宽爆满导致运行任务失败,同时还存在丢包情况。
二、故障截图
磁盘IO延时达到826ms
黑盒日志LOG_iostat里面磁盘有许多util接近100%
HCI告警日志显示云主机会话超过告警阈值
三、故障原因分析
1通过排查平台流量和会话数,发现平台存在流量有突增,虚拟机会话连接数量超过 10 万条的告警,初步判断为网络性能转发问题,调整平台用于数据转发的核心数。
2通过进入虚拟机中查看虚拟机日志以及IOSTAT 状态,发现虚拟机的写时延很大,初步判断虚拟机内部负载过高,影响了收发包。
3】通过后台日志分析,发现存在在高延时时,存储网络存在网络高延时,分析当前 IOPS 性能瓶颈可能来 源于存储网络转发瓶颈过协调网络组专家在交换机以及 SRE 在平台侧 抓包确认,当前主要问题是存在于平台突发流量时候,物理网卡 ETH5 转发达到了10G 上限,将聚合网口单个网口跑满,导致丢包。
四、解决方案
1】优化网络转发性能,HCI修改转发核心数为4C,内存调整为8G2】优化云主机基数(磁盘将动态分配改成预分配,CPU独占,启用HostCPU,打开大页内存)
3集群存储网的聚合模式为mac地址负载,mac地址负载有可能会导致某个口流量很大,导致丢包或者时延大,需要修改成四层负载。
五、操作影响范围
1】业务流量断开10秒左右
2】重启云主机
3】影响整个超融合集群
六、注意事项

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

平凡的小网工 发表于 2024-6-8 17:06
  
多谢分享,步骤清晰,有助于工作。
一个无趣的人 发表于 2024-6-10 23:45
  
步骤清晰,有助于工作。
发表新帖
热门标签
全部标签>
西北区每日一问
干货满满
每日一问
技术盲盒
技术笔记
产品连连看
GIF动图学习
技术咨询
标准化排查
新版本体验
安装部署配置
功能体验
2023技术争霸赛专题
信服课堂视频
自助服务平台操作指引
每周精选
解决方案
设备维护
秒懂零信任
升级
高手请过招
升级&主动服务
答题自测
玩转零信任
信服圈儿
通用技术
技术晨报
社区新周刊
畅聊IT
专家问答
技术圆桌
在线直播
MVP
网络基础知识
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
原创分享
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
高频问题集锦

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人