本帖最后由 wxhlio 于 2021-4-14 10:38 编辑
超融合虚拟存储故障(硬盘坏道)处理过程记录 硬件:Dell C6420 超融合版本:aCloud 6.0.0_R4 Build20200421 登录平台看到有告警提示:“主机(10.*.*.*)的硬盘(WBN0F9LR SEAGATE DL1800MM0159)坏道达到红色告警条件,会危害您的数据安全,请及时更换硬盘。” 1、查看故障详情。赶紧点击切换至虚拟存储“磁盘管理”界面,查看具体的硬盘组及定位磁盘位置,本次是在第二个节点的HDD数据盘故障。
2、定位磁盘,通过“开启硬盘灯”来定位。点击“开启硬盘灯”,会弹出一个设置硬盘灯长亮时间给你选择,有1分钟、3分钟、5分钟、10分钟。选择一个即可,如果你就在机器旁边,时间选1分钟足矣。设置完后,注意观察服务器硬盘灯,这种长亮状态与平常读写状态还是很容易区分的。切记别定位错了!!!
3、准备备件。准备一块符合替换条件的硬盘进行接下来的替换操作。由于之前使用中遇到过一次硬盘故障,当时版本貌似还要求20分钟内就要替换掉,否则会降级。有了那次经历,后续我就针对硬盘购置了备件,缓存盘、数据盘及硬盘托架都备货了。这样遇到故障就从容多了。 4、隔离硬盘。这个根据自己的业务情况选择处理方式,本次选择了“快速隔离硬盘”。
5、替换硬盘。待任务列表中的隔离完成,就可以操作“替换硬盘”。如图中框选的“3、选择硬盘”弹出来的隐藏提示,这里我觉得有个地方需要引起注意,我们在做规划时,对于服务器硬盘使用直通模式还是有好处的。
按照操作步骤更换并插入新硬盘后,稍等片刻,待新硬盘出现在选择列表中即可进行下一步。
勾选“我确定要更换硬盘”。点击“完成”。
之后虚拟存储卷状态恢复正常。
总结: a、针对自身超融合平台的情况,做好备件还是有必要的。 b、对于分布式存储,硬盘使用直通模式更适合。 c、后续规划将平台升级至新版本,新版本对于硬件健康监测有了提升,进一步提升了运维能力。 |