本帖最后由 全活不打折 于 2025-5-19 12:52 编辑
起因:
去给某客户做健康巡检,发现客户的超融合集群告警有一台主机离线,随即询问客户原由,客户居然说不知道;好家伙,从告警产生的事件到发现已经过去了几天,居然没人发现,看来客户的驻场运维上班都在摸鱼。随后询问客户的,客户说前几天停电了,怀疑是这次停电搞坏了机器。
第一次排查过程: 进入机房,发现集群电源灯呈现橙色,但是开机键都快被我按冒烟了,就是没有开机,没有反应,电源模块指示灯双闪。最后接入BMC,没有什么异常的告警日志,现在没法了,直接进入我最喜欢的环节,直接call  4006306430,打通后按1再按5,这操作老熟悉了。
二线上线,说清了故障现象后远程看了BMC系统日志,没有发现什么异常,提取了黑匣子日志,然后又找到硬件部专家的来看,专家上来一顿指导,最小化开机原则,除去留一条CPU0 C0D0的内存,其他内存全部拔掉,把硬盘拔了,网卡也拔了,这叫最小化开机原则(第一次听说,又学到了),结果发现还是没有用。 专家说断电五分钟后在开机试试,结果还是没啥鸟用。好了,悬着的心终于死了,终于不用我再继续麻烦了,专家初步诊断可能是CPU或者主板坏了,需要服务器工程师上门维修。好巧不巧,SN查询设备维保过期了,过保设备服务器工程师单次上门费就要2000大洋,然后根据现场检查的结果在做维修报价,简而言之就是哪里坏了换哪里,不过要客户先打上门费2000。
随后我将结果传达给客户,客户听起来面露难色,也没说要修还是不修,就这样过去了一年。。。。。。 第二年,客户那边换了一个人找到我,说要开始维修服务器了,随后我找到当时给报价的人员,确认价格还是以前的报价后给客户说明价格,客户没有意见,最后在销售的建议下,客户选择续了一年维保。客户这都续保了,那我得赶紧响应啊,马上联系对接的400下单,让远程工程师上门,在下单前400需要两个信息,一个是服务器SN码,一个是厂商串号,这个是服务器厂商自己的SN,就是下图这个东西。
有句话说的好,“麻绳专挑细处断,命运专找苦命人”。我把这两个信息拍照发给了400,400又发个信息模板给我填,结果不小心输入了一个数,400没核对,然后就拿着我发送的信息向服务器厂商下单了。说起来也是冤孽,SN错了服务器厂商那边还真查出了这个设备,服务器厂商很快就安排了工程师联系了我,我说明故障现象后服务器工程师带着主板上门去了(埋下了大坑)。
同时400也比较坑,自己偷偷寄出了一个CPU到客户那边也不给我说一声(此时我想对这个400说一种植物),快递到了让我签字收货我才知道这事,可我人不在现场啊,几番沟通下来让快递小哥给我代签了放客户前台,下午服务器工程师刚好到了就可以取,电话给上门的工程师说了这事,让工程师如果到不了现场给客户说明一下原因,顺便让客户收一下寄过去的CPU,因为周五了,过个周末怕丢件了,工程师说:”好的,没问题!“
为什么我不在现场呢,第一是确实忙其他事走不开;第二是更换主板我去了也做不了啥,偷个懒,远程遥控上门的工程师不香吗?体验一下当领导的感觉。
下午工程师又打来电话,说他过去就下午五点了,客户让他下周一再去。 陶醉了两天很快就周一了,工程师在客户驻场的接待下到了机房,然后马上就给我来电了,说下单的服务器SN和现场的差别有点大。随后就给我念起了现场的SN,我心里想要不就是随机用了三台服务器中的某一台SN吧,然后和现场故障的对不上;嘴上就说没问题,客户三台服务器都有维保的,让工程师直接干就行了,打断了工程师的吟唱,工程师没说就好好好的挂断了电话。
没过一会又来电话了,工程师问我CPU在哪,我真想上去一个大嘴巴子,这不上周才说过吗,这家伙说自己没给客户说这件事,让收一下这个快递,我又让工程师去前台找找,找了半天啊来电说还是没找到,我听到这消息心里急得哇,马上打了快递小哥放哪儿了,快递小哥说加我微信发我照片。没多久工程师来电说找到了,结果快递小哥也没加我微信发我照片。。。。。。。。
现场的情况工程师也只能打算先换CPU看看,结果工程师一看CPU傻眼了,发过去的CPU型号是5118的,服务器是5115的,两个主频不一样,换上去开机可能会烧,还拍照给我看了,顺便还说清楚了主板的事,他带的是一个4U的主板,现场是一个2U设备,得知此事我那叫一个震惊啊!第一时间找了400核对此事,400一查CPU下单信息是下单的人搞错了,主板信息是照我填错的信息下单的,这下把我给干沉默了。。。。。
这一刻我终于明白,人啊,真不靠谱啊,世界宛如一个巨大的草台班子。
现场工程师面对如此环境依旧不肯放弃,几番捣鼓扣了一下主板的电池,服务器就开机了,结果就是电池没电了,换了个电池(我内心一万匹马奔腾而过)。。。。。。
合着客户花了钱就换了个电池?事情远远没有那么简单,接着往下看!!! 最后工程师把服务器上架回去,做最后的检查,最后发现BMC中读取不到电源输入信息!
最后检测结果就是CPU没问题,但是主板是有问题的,需要换主板,真是好巧不巧应了那句话越怕什么越来什么!没办法,工程师也只能先撤退了,我不好意思将此次结果汇报给客户,只能说还需要工程师二次上门;结果客户现场抓包,让我特别不好意思,马上给客户道个歉,还好客户人好没有为难我(哈哈哈哈哈哈,看来我为人处世还阔以)。
第二次排查过程: 第二次服务器厂商工程师换了人联系我,带着对应的主板第二次上门了。此时我和第一次也是一样的想法,偷懒没有上门,心想远程给客户搞个巡检就行了。这次上门的工程师很专业,第一时间向我反馈问题和汇报进度,我很满意。很快就发来了正常开机的照片给我,我也远程看了,除了开机logo不是深信服一体机的,正常开机进入系统,只是启动时间慢了点,另外启动后集群还是显示主机离线。
我第一反应想着估计是网口乱序了,早知道和服务器工程师一起去现场了。 我询问400要不要刷开机动画,400老不回复我,我也没难为现场的老哥,让现场的工程师感觉回去了,再晚就没回去的票了(我还真是善良)。我给客户汇报了这次上门维修的结果,并给客户说下周自己在此上门处理服务器还是离线的问题,这时已经距离客户续保后过去一个星期了。
第三次排查经过: 又度过了愉快的周末,我上门后到机房准备调整网口乱序,结果啥也看不到,只能进入我喜欢的400呼叫环节了。众所周知,400远程比较忙,响应后接入远程半天没动,我自己检查了一下,后台能ping通其他两个主机,但是就是看不到集群里主机上线。
据我多年的经验,上来就先重启,重启的过程中发现板载网口有点异常,不插网线的网口指示灯亮了,查了网线的反而不亮了,控制面版系统异常指示灯量起,怪哉怪哉。
随后联系服务器厂商工程师,让我关机在插拔一下板载的网口模块,这下亮起来了,但是灭不了了,握草,而且网口对应的IP ping不通。
还记得之前提过的换过主板开机logo不是深信服一体机的画面吗?我给服务器工程师说了这事,他让我先刷BIOS固件试试,估计是这个的问题,我听挺有道理,随即在老哥的远程指导下开始操作,这一刷完了,BMC系统里上传BISO更新包后,BMC直接挂了,各种办法都刷不回来,这老哥也懵逼了,自己的专用工具刷、手动刷都不好使,干了几个小时一点进展都没有。只好让400处理一下,400找了个专家,给了个工具和包,只需要几分钟直接在超融合底层把BMC系统救回来了(这就叫专业)。
不得不说,刷了BISO和BMC后,logo回来了,开机也快多了,但是还是没有解决服务器离线的问题。400查看系统没有签名,怀疑是这原因导致主机不能正常上线,后来申请签名给签名搞上了。
结果还是能ping通但是不能上线,系统查看只有四张网卡,bios也是只能看到4个网口。 此时也只能让专家继续看看了,专家判断可能是网卡模块有问题,二是更换的主板有问题。和服务器厂商工程沟通了此事,老哥说凭他们的经验网卡故障的几率占到9成,我半信半疑,最后协商下周再约个时间,老哥带个新主板和网卡模块过来,就此和客户说明后第三周在此上门。
第三次排查经过: 此时和服务器工程师在此上门,老哥带来新的主板和模块,现场一换,还真是主板有问题。网口也能识别了,但是超融合软件有点小问题需要调整,web界面多出来4个网口图标,而且确定网口肯定是乱序了,工具只能识别8个网口多出来的没法识别,只能让400后台处理了,虽然这个问题很简单但是400后台调整了几次也没成功,最后还是用工具调整才搞定了,最后在给新换上的主板刷上BISO固件,FRU信息,系统签名,一切都结束了。 你以为到此真的结束了吗???NoNoNo! 最后一遍检查发现有一个板载网口不插网线有个指示灯会闪烁,正常来说应该不会有这样现象,反馈给400后,硬件部搭建环境去测试评估后续能否正常、稳定的试用,暂时客户的主机算是恢复上线了,目前也一切正常,我也只能等待反馈的结果了, 到此为止整个事,客户从续保到完成维修花了整整两个周,还好这次客户比较好说话,不然真的吃投诉了 。
总结: 更换主板有可能产生网口乱序的情况,BISO电池没电或扣去电池后会导致BISO信息丢失,丢失一体机的开机动画,另外更换主板后需要找400对超融合系统进行签名,刷FRU信息,特别是FRU信息,在更换前应该先查看原主板的FRU信息并留存;能使用工具解决的优先使用工具解决,虽然工具不一定好用,但是可以先除一下避免浪费更多的时间。 整个事情开看,出现很多问题,从一线工程师填写重要信息没有核对检查,到400远程二线的疏忽大意不仔细、到过分相信第三方服务器工程师的专业能力和职业素质都是此次到处才坑的原因,能亲力亲为的事最好自己去做,避免因为小小的一个偷懒导致后续需要花费更多的事件和精力去弥补,这叫因小失大。 整个事件中技术的复杂度不是此次问题闭环各种波折的核心原因,人的主观意识的影响才是。 |