今日一客户超融合出现硬盘告警,第一时间进行了排查、确认和处理,现将过程分享如下:
1.客户反应超融合提示硬盘故障,如图: 2.到达机房后,第一时间找到对应的物理机设备,接下来要确定磁盘,可以直接在界面上操作点亮磁盘灯: 这个时间,磁盘的灯是常亮的,而正常写数据的磁盘灯是闪烁的。 如果这个还不确定的话,可以在一体机面板的左下方的铭牌上看一下具体位置,如图: 我们可以看到第二排最右边的那个是7号磁盘,准备定位磁盘。 3.由于磁盘已经出现故障告警,所以我们使用第一种方法测试下,即拔插磁盘,看能否恢复,拔插磁盘后,依旧显示磁盘故障,所以该方法不可行: 4.接下来我们使用方法2进行检查:通过IPMI登录控制台,查看磁盘数量和状态,发现缺少一块4T的硬盘,这说明磁盘已经不在服务器上了,没有识别到: 控制器2上依然如此: 其实,到这个地方我们基本上可以判断磁盘是故障了的,如果还是不确定的话,可以进到后台进行查看(后台需要技术同事协助哦) 5.登录到设备后台,使用命令lsblk -d 查看磁盘个数: 可以看到,和带外管理控制台一样的结果。 如果需要进一步的判断的话,可以通过后台/sf/log/today/kernel.log查看kernel日志是否有io_error日志,如果有的话可以查找对应的盘符,进而查看对应的磁盘,最终找到有问题的地方。
友情提示:如果确定磁盘故障了,并且在维保期内,可以直接打400电话进行返修,硬件部同事会直接寄一块新的磁盘来,与此同时会收到一封设备返修通知函: |