本帖最后由 木二 于 2021-11-17 11:24 编辑
问题背景当前HCI平台出现磁盘卡慢告警,集群虚拟机存储卷异常。
通常前端页面提示:
[ 2021-11-14 07:48:45 ] 主机(172.21.192.24)的硬盘(WFK2HADD0000E919K2VB SEAGATE ST1200MM0009)已被确诊为卡慢盘,硬盘自动隔离失败,会影响业务性能,可手动点击“隔离硬盘”按钮隔离处理,如果还是失败,请联系深信服科技处理!
问题处理硬盘定位前端界面提示WFK2HADD0000E919K2VB,通常可能由于此硬盘给其他硬盘同步,而其他硬盘异常导入同步失败,从而导致此硬盘出现卡慢告警。
需要定位出真实磁盘在设备上的盘符。
存储——>虚拟存储——>硬盘管理。
由上可知磁盘位于:172.21.192.24 ,进入该主机查看异常的磁盘。
明确该磁盘为HDD类型,进入该硬盘卡慢的磁盘。
确认硬盘名称,硬盘状态。
由上可知,引起前端界面提示WFK2HADD0000E919K2VB卡慢是因为WFK2L2EJ0000K9206UNT磁盘异常导致同步失败,因此需要解决的是WFK2L2EJ0000K9206UNT磁盘问题。
定位设备:
硬盘名称:WFK2L2EJ0000K9206UNT SEAGATE ST1200MM0009
磁盘定位明确后,需要定位出状态异常的硬盘所在的磁盘盘符。
浏览器登录HCI平台,系统管理——>端口管理——>打开SSH端口。
使用root/[**前端密码]+[***] 登录HCI后台。
从集群主控登录故障主机:172.21.192.24 。
根据硬盘名称前缀,筛选出磁盘设备。
- Sangfor:aSV/host-20283e8b139d /sf # ssh 172.21.192.24
- Sangfor:aSV/host-20283e8b1349 /sf # grep -B 2 "WFK2L2EJ0000K9206UNT" /sf/cfg/vs/disk/*
- /sf/cfg/vs/disk/20283e8b1349_35000c500bc8ecdff.json- "dev": "/dev/sdh",
- /sf/cfg/vs/disk/20283e8b1349_35000c500bc8ecdff.json- "disk": "20283e8b1349_35000c500bc8ecdff",
- /sf/cfg/vs/disk/20283e8b1349_35000c500bc8ecdff.json: "disk_alias": "WFK2L2EJ0000K9206UNT SEAGATE ST1200MM0009",
复制代码
定位盘符: 故障定位使用smartctl命令检测该磁盘。 - Sangfor:aSV/host-20283e8b1349 /sf # smartctl -a /dev/sdh
复制代码
- Sangfor:aSV/host-20283e8b1349 /sf # smartctl -l error /dev/sdh
复制代码
检测IO读写情况,可使用iostat命令,该命令详细使用参考 系统管理监测命令书 ,超融合HCI环境中,后台存在一个LOG日志,实时记录磁盘读写情况,可直接查看此日志即可。
- Sangfor:aSV/host-20283e8b1349 /sf # tail -n 15 /sf/log/blackbox/today/LOG_iostat.txt
复制代码
检测内核日志,通过内核日志进一步确认磁盘故障。 - Sangfor:aSV/host-20283e8b1349 /sf # cat /sf/log/today/kernel.log | grep error | grep sdh
复制代码
提示: - end_request: critical medium error, dev sda, sector 26480696 #坏道 PCLERPDB2 kernel: end_request: I/O error, dev sda, sector 26480696 .#可能插槽有问题或者硬盘线有问题,也可能是坏道
复制代码
结论:综合多处排查结果,确定为172.21.192.24主机的sdh磁盘存在坏道,需要进行换盘。
故障解决对于非一体机,可通过对应服务器厂商BMC进行硬盘位置确定。对于一体机,可通过HCI控制台开启硬盘灯进行确定硬盘物理位置。 通过定位灯将磁盘在物理服务器上的位置确定。 确认物理磁盘。
提示:对于异常状态的磁盘,更换之前建议由研发进行确认,是否可进行正常换盘操作。
存储——>虚拟存储——>硬盘管理,中找到故障磁盘,点击[更换硬盘]。
按照提示,完成替换操作。 提示: 替换磁盘后会触发数据重建,对IO敏感的业务存在一定影响,建议在业务空闲时操作; 若设备的raid卡是jbod模式,此时磁盘支持热插拔,支持在服务器不关机的情况下将故障磁盘拔下,再插上新磁盘; 新磁盘的容量大小要和故障磁盘的大小一致(严禁替换磁盘容量小于故障磁盘容量);
|