VMware替代关键技术:超融合存储中的外置存储链路亚健康检测与隔离技术
  

软件定义数据中心SDDC 7251人觉得有帮助

{{ttag.title}}
外置存储作为超融合存储的关键部分,既能优化数据读写,提升处理效率,还可灵活扩容,适配业务持续增长的存储需求,其健康状态直接牵系着系统运行的稳定性——
当医院影像传输出现 10 秒以上延迟,可能延误关键诊断;银行交易日志同步频繁卡顿,或将导致数据处理异常;制造企业设计图纸加载持续转圈,难免拖慢研发进度。这些看似偶然的"卡壳"现象,背后往往是外置存储链路亚健康在“作怪”。

一、外置存储链路暗藏亚健康 性能与效率的 “绊脚石”
维护链路健康,是保障数据流畅流转、业务高效运转的关键所在。为增强存储访问的冗余性和可靠性,业界普遍采用多路径 I/O 技术,实现负载均衡和故障切换。
然而,理想很丰满,现实却很骨感。在实际运行中,单条路径的亚健康状态可能会导致整个存储 LUN(逻辑单元号)设备的访问性能下降:
  • 负载均衡模式下,亚健康链路会拉低正常路径的 IOPS 效率,导致整体性能失衡;
  • 在主备模式中,主路径的隐性延迟则会直接造成业务访问卡顿。更糟糕的是,由于备用路径的检测机制滞后难以及时接管,从而使业务连续性受到严重影响。





面对外置存储链路亚健康带来的诸多挑战,深信服超融合HCI6.11.1创新推出「外置存储链路亚健康检测与隔离技术」,精准解决多路径 I/O 中的性能隐患。

二、核心技术:构建「监测 - 隔离 - 恢复」全闭环
深信服超融合在外置存储链路管理中,通过 “精准监测异常→智能隔离风险→动态恢复链路” 三大核心模块,形成全流程健康防护体系。当系统检测到外置存储设备出现卡顿或性能下降时,会立即触发告警并启动隔离机制,避免亚健康链路影响业务。
相比传统方案(如 eBPF 的 kprobe 技术、内核 diskstats 功能),深信服直接在系统内核进行程序修改,资源占用低,检测精度高,对系统性能影响微乎其微。


具体来看三大核心模块如何协同工作——

毫秒级时延监测,精准定位异常链路
在数据读写过程中,系统通过慢IO监测与IO卡顿监测两种机制,构建多层次异常检测体系。
1. 慢IO监测:毫秒级时延追踪
  • 原理:记录每次 IO 操作的起始时间(P1)与完成时间(P2),用两者的时间差计算读写耗时,与预设阈值(默认 512ms,用户可自定义修改范围)对比。若读写延迟超过限时,系统记录时间、硬盘、数据区域等信息(每 5 秒最多记录 1 条日志,同时可临时关闭该限制)。
  • 判定机制:支持灵活配置按统计周期(30 秒 - 30 分钟)分析,若外置存储盘超阈值操作占比≥50%,自动触发告警或隔离。





2. IO卡顿监测:内核级超时捕获
  • 原理:在系统内核处理数据读写超时函数中,增加程序逻辑,未按时返回的请求计数为 “卡盘”,通过/proc/iostuck_stats实时查看分区卡盘状态。
  • 告警机制:告警程序每 10 分钟扫描卡盘计数变化,即时通知用户异常。





智能隔离策略,平衡可靠性与可用性
  • 平均时延,高低时延差超阈值(50% of 512ms)时,隔离异常路径;对于单主路径和策略分级:针对复杂场景(多主路径 /多备用路径/负载均衡),系统计算所有路径多条备用路径,一旦出现时延异常立即隔离。
  • 隔离原则:隔离时保留至少 50% 可用路径且不少于 1 条,避免过度隔离导致链路冗余失效。
  • 操作闭环:隔离时标记路径为不可用,设备离线;恢复时自动清除禁用设置并重新扫描,无需人工干预。





深度扫描恢复,保障链路资源动态更新
  • 当IO链路因故障或高时延被隔离,深度扫描功能随即启动:
  • 清除无效路径:删除多路径服务程序标记的不可用链路;
  • 设备重连验证:通过 LUN ID 列表扫描存储设备,重建内核中缺失的路径设备;
  • 效果:清理存储映射变更残留的无效路径,恢复已“自愈”且禁用中的高时延链路,保障链路资源动态更新





三、功能远超友商 灵活适配多样需求
与友商产品对比,深信服超融合HCI 6.11.1 新版本在功能上更具优势。


1.在链路监测方面
深信服超融合广泛支持FC、iSCSI等常见外置存储链路的时延监测,相比部分友商产品链路监测协议覆盖不全的情况,能够更全面地满足不同用户的存储架构需求。支持单一的处置方式或不支持亚健康隔离。

2.在配置灵活性上
允许用户根据自身业务特点和需求,对时延监测的各项参数(时延阙值、监测周期)进行灵活多样的配置。而友商产品往往在配置方面存在一定的局限性,难以做到如此精细的个性化设置。

3.在异常处置方面
深信服不仅提供了丰富多样的处置方式,还兼顾了自动化和手动隔离两种模式。这种灵活的处置方式,充分满足了不同用户在不同场景下的多样化需求,而许多友商产品仅支持单一的处置方式或不支持亚健康隔离。

深信服外置存储链路健康技术通过 “监测 - 隔离 - 恢复” 闭环,可有效保障外置存储链路稳定运行,显著提升数据存储可靠性和业务运行效率。未来,深信服将持续深耕超融合技术,以更智能、更高效的解决方案,助力企业应对数字时代存储挑战。

有奖活动:

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

无花果 发表于 2025-4-27 17:14
  
有点期待了,HCI 6.11.1什么时候发布呢?
一本漫画走天涯 发表于 2025-4-28 11:44
  
果然是高手,谢谢分享,好好学习了
tcpipswitch 发表于 2025-4-28 16:09
  
这个好!!!有新版本了!!!
发表新帖
热门标签
全部标签>
【 社区to talk】
每日一问
新版本体验
标准化排查
安全效果
功能体验
GIF动图学习
纪元平台
产品连连看
信服课堂视频
技术笔记
高手请过招
社区新周刊
2023技术争霸赛专题
平台使用
答题自测
技术晨报
运维工具
排障那些事
SDP百科
每周精选
畅聊IT
专家问答
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

197
339
998

发帖

粉丝

关注

217
292
151

发帖

粉丝

关注

25
16
5

发帖

粉丝

关注

7
12
27

发帖

粉丝

关注

5
10
7

发帖

粉丝

关注

32
37
46

发帖

粉丝

关注

1
1
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人