本帖最后由 91135_周杰 于 2025-3-24 08:50 编辑
自动化平台工具使用体验之 【卡慢盘分析平台】 一、背景介绍 某天下午突然接到客户反馈,超融合平台告警,集群中一台主机的一块硬盘离线,为了防止影响业务,需要尽快解决,如下图所示告警:
二、处理过程 按照以往的经验,那可能是硬盘松动或者就是硬盘损坏导致的,那么我直接联系客户,去机房找到该主机,确实存在一个硬盘闪红色灯,指导客户将硬盘拔出后,然后重新插入,等待片刻,告警消除,离线硬盘已恢复在线,奈斯! 紧接着,客户肯定是咨询,为啥这块硬盘会离线,离线的原因是什么? 作为一个工程师,那就开始找原因了,按以往经验,那肯定是转400同事,登陆超融合后台进行日志分析,然后查找原因,硬盘松动还是进程卡死或者是预警之类的,预计从打电话到有时间排查再到最后结论,至少1-2小时以上了。 虽然这样处理没问题,但是感觉体现不了一线工程师的专业。于是....... 通过查找案例,被我找到了一个宝藏平台,【卡慢盘分析平台】 (之前确实没听过) 通过使用这个平台,不到10分钟时间,我就自己定位了硬盘离线的原因以及解决方法,卡慢盘分析平台使用简单、零基础上手、效率高,快速定位原因以及提供解决方案,真是太棒了!~O~ 推荐大家后续需要硬盘卡慢的问题,都优先使用卡慢盘分析平台去解决。
下面是我实际使用的过程,以及平台使用步骤,作为参考
三、卡慢盘平台使用 1、登陆support平台,查看卡慢盘平台的使用方法,详细内容见帖子: https://support.sangfor.com.cn/cases/list? product_id=33&type=1&category_id=30364
2、下载收集日志的脚本,超融合后台执行,取出收集到信息。
(2) 上传后台:提前解压脚本文件得到 collect_info.sh ,通过mobX或者ssh工具上传到超融合设备任意主机后台/sf/data/local/目录下
(3)执行命令: 执行脚本运行命令 如收集2025年3月24日信息: bash collect_info.sh 24 20250324
(4)下载收集到压缩包:等待信息收集完成后,按提示取出压缩包
3、上传平台,得到结果 (1) 登陆卡慢盘分析平台,上传收集到压缩包,进行分析 等待页面提示分析完成后,点击【下载】得到结果
(2) 下载分析后的结果,得到原因和解决方案
四、总结 使用工具可以提高日常问题处理效率,让问题处理更加简单方便 后续将继续推荐其余的自动化平台和工具
|