|
#信服智创#【排障经验】超融合服务器远程管理提示光纤网卡报错 LAN“OCP_SFP_TEMP reading 115.00 higher than thresh" 一、问题描述: 近日,某校老师突然发短信说有一台服务器出问题了,服务器前面板报两个红色的错误灯,服务器CPU风扇全速运转,噪音特别大。请求处理一下。
二、故障现象: 通过老师分析是硬件出现了问题,于是登录到MGMT远程管理口,发现网卡报错:“OCP_SFP_TEMP reading 115.00 higher than thresh” 三、处理过程: 1.当前警告栏提示网卡是“OCP_SFP_TEMP reading 115.00 higher than thresh...” 2. 发现光纤网卡状态是down状态。 3.发现电源断过电等问题。如PSU0彻底交流输入掉电/市电异常供电(AC lost),Redundancy设备直接失去电源冗余,只剩PSU1点电源支撑整机。 4.收集日志发给400硬件工程师具体判断是否是光纤网卡模块问题 四、根因: 最终原因可能是学校出现断电现象好几次,导致光纤网卡出现问题。也有可能是长时间使用过程中光模块坏了,导致服务器报警。 五、解决方案 通过现场拔其他超融合服务器光模块替换坏的服务器光模块,最终服务器报警解除。 六、建议与总结 1.机房如果断电最好有稳压电源供电,有值班机房管理员长期驻守监控,遇到问题马上解决,避免机房设备因为断电造成硬件损坏等问题。 2.通过400工程师服务器日志收集分析能快速找到问题来源。 |