本帖最后由 深信服李航 于 2023-3-5 16:40 编辑
现象:1.超融合备份虚拟机失败,发现超融合备份存储是EDS挂载的iSCSI存储,登录EDS平台发现某主机磁盘存在坏道,需要后台开启硬盘灯(硬盘灯为蓝色),定位故障硬盘所在的物理槽位,定位之后核对磁盘对应系统序列号是否一致,方便后续走返修流程
问题处理过程:2.EDS平台告警日志发现主机172.16.8.112存在一块序列号为ZL28ZDHV的坏道磁盘,此时需要进主机后台lsblk -d查看是否识别到这个磁盘,若没有识别到,则说明软件层没有识别到这块硬盘(说明这块坏道磁盘已经被系统隔离,软件层无法识别)
以/dev/sda为例:通过执行smartctl -a /dev/sda,打印信息中“Serial Number”对应的信息即为硬盘序列号,通过[size=12.6667px]smartctl -a /dev/sdx命令查看坏道磁盘序列号所在的磁盘盘符,发现这些磁盘的序列号都无法匹配坏道磁盘的序列号(系统软件无法识别磁盘,因此无法识别到磁盘所在的序列号) [size=12.6667px]思路:[size=12.6667px]可以通过lsblk -d显示目前已经被系统软件识别的磁盘盘符,通过点亮这些磁盘,剩下的未点亮的磁盘就是需要被换掉的坏道磁盘
3.ssh 172.16.8.112这台主机之后,通过输入raidstat命令确认raid卡类型,raidstat查看Raid卡型号,确认controller_model值为INSPUR 3008IMR(RAID卡型号为:SAS 9361-8i, INSPUR 3008IMR,都支持MegaCli64点亮磁盘)利用MegaCli64工具点亮硬盘灯,使用find /-name MegaCli64命令,首先查看MegaCli64工具所在的目录, 后台切换到/opt/MegaRAID/MegaCli/MegaCli64目录
4.确定磁盘的ES:/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll -NoLog | grep -Ei "Enclosure Device ID|Slot Number|Firmware state|WWN|Raw Size"
磁盘专业参数解释: | | | | | | | | 可以为all,表示点亮所有Enclosure下属的硬盘的定位指示灯。 | | | 可以为all,表示点亮Enclosure下属的所有硬盘的定位指示灯。 | | | | | 5.上一步骤确定的ES后,使用MegaCli64工具点亮系统识别的磁盘
/opt/MegaRAID/MegaCli/MegaCli64 -PdLocate -start -physdrv[E:S] -a0 #点亮 /opt/MegaRAID/MegaCli/MegaCli64 -PdLocate -stop -physdrv[E:S] -a0 #关闭
6.通过全部点亮EDS前面板硬盘灯之后,剩下未点亮的磁盘就是坏道磁盘
7.经过和400一再确认后,可以取掉这块经确认后的磁盘,更换磁盘属于高危操作,一定要和400详细确认是否能够取掉硬盘,如果自己不确定是否能取,一定要400协助处理(目的:确认取出来的磁盘SN码和系统识别出来的坏道磁盘SN码一致),取出来和系统坏道磁盘一致(成功定位硬盘所在物理位置)
3.问题总结: 定位坏道磁盘所在物理槽位位置:前提是无法通过在EDS平台上面开启硬盘灯的情况下,可以通过后台通过开启点灯命令进行定位。 1.raidstat确定raid卡类型,不同raid卡类型所使用的硬盘点灯命令不一样 2.通过find / -name MegaCli64(storcli64, [size=12.6667px]perccli, arcconf )确定点灯工具所在的路径 3.确定磁盘的ES:/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll -NoLog | grep -Ei "Enclosure Device ID|Slot Number|Firmware state|WWN|Raw Size" 4.使用MegaCli64工具点亮系统识别的磁盘 /opt/MegaRAID/MegaCli/MegaCli64 -PdLocate -start -physdrv[E:S] -a0 #点亮 /opt/MegaRAID/MegaCli/MegaCli64 -PdLocate -stop -physdrv[E:S] -a0 #关闭
附:硬盘点灯命令.docx |