一、 现状分析与问题识别1、今年收到7例内存故障,是扩容时内存时,马上就出现了内存故障;
2、今年总的内存故障一共是二十多例,但7月之前只有十几例,在进入8月和9月之后,突然剧增十几例;
以上两个问题,都让我们不禁想问:为什么扩容这么容易出问题?为什么进入8月之后的内存故障率突然变高了?
针对近期出现的内存扩容故障案例,我们回访了一些工程师,得到如下反馈:
● 客户现场扩容基本不戴防静电手套,甚至有人反馈"没见过";
● 内存“随意摆放”在待扩容服务器的盖子上,内存防静电包装早就“不翼而飞”;
1.1、我司内存包装现状 实际上我司针对内存扩容时,单发内存的包装盒里面,是有防静电手套、有内存扩容风险提醒及指引、还有内存泡沫保护槽、内存静电袋,效果如下:
● 内存金手指朝下放入防静电袋中,自封口向内存无标签一面进行折叠
● 将内存放入尺寸匹配的泡绵槽位中,以防运输中的物理挤压
● 在包装盒中增加一副防静电手套和内存安装说明书
但为什么大部分人反馈没见过手套?内存的防静电、甚至包装盒都不见了?
1.2、为什么看不见静电手套? 在经过与一线沟通才发现,加点的内存的动作分为两个环节:
1、 采购及验收环节;
2、 执行实施环节;
采购和验收环节,基本上都是区域的销售,或者渠道的销售下单,然后将内存发到办事处或者渠道手上;此时内存的收货人和执行扩容的人,大概率不是同一个人,收货人的常规动作:
● 拆包装验货(质量及数量);
检查内存数量是否正确,检查内存是否有明显的不良,在这个过程中一些妨碍验收的物件(手套、安装指南)被放到一旁,验收后就容易忽略;在这环节,手套或扩容指引
的说明,就有较高的丢失风险;
● 内存分发
下单的人(收货人)是清楚地知道,他采购的内存要在哪些设备上执行。以回访的XX客户为例,收件人是客户的信息中心人员。一共收到12条内存,分别要在A\B\C三台设备
上扩容,恰好这三台设备都在同一个机柜,但机柜一共有5台设备。为了方便上门的工程师快速、清晰地知道内存对应的哪台设备,此时,客户将内存全部拆下来了,每台设
备上放4条内存;确保技术工程师一到现场之后,就能清楚地知道,要被扩容的设备是哪些;
效果如下:
故此,当总代的技术工程师到达现场的时候,手套或者包装,是都不见了的;
经过我们多方面的回访,也证实在以下两个售后场景中也容易出现类似的问题:
1、 下游渠道,求助总代(行服)渠道的时候;
2、 总代、行服渠道,求助原厂技服的时候;
求助者确实会习惯性地,把自己能做的,能前置的工作都提前地做好;所以,大部分时候,执行内存扩容的工程师,到了现场之后,看到的场景实际上是这样的:
故此,没看到静电手套等物品,也就正常了;
1.3、内存扩容为什么容易坏?为什么手套会丢失的问题分析完了,以下问题也是大家最容易问的:
“但是为什么内存这么脆弱?我自己的个人主机的电脑,我也是这么扩容操作的,一点问题也没有啊,难道企业级的内存还不如消费级的质量?”
答:
1、服务器扩容内存数量多,缺陷机会数增多。个人主机配置32G内存就已经畅玩各种游戏了,通常就是增加一条内存;而一台服务器扩容内存时一般是4条起步,扩容多台时
故障概率大大增加;
2、不规范的放置内存,加剧撞件的风险。个人主机的内存扩容时,内存都是独立包装的,拆了包装就直接插入使用了。但一台服务器扩容内存一般是4条起,将内存拆除包
装并裸放在服务器上,内存上的元器件被撞坏也是常见的;
比如,以上两条扩容时退回来的内存,有撞件的痕迹;
3、 不戴防静电手套触摸内存,导致静电击穿存储芯片。客观来说这问题并不是必现的,取决于当时现场的操作人员的情况;现场扩容出现问题的内存,很多内存的故障报
告都是“存储颗粒损坏”。
类似的故障分析时,厂商无法给出“该内存是被静电影响导致的故障”类似这种结论。就比如“张三被小刀割伤皮肤流血”,最终医院的鉴定报告只能写“皮肤被锐器划
破皮肤、直至血管,产生部分渗血”,医院不可能给出你是被什么刀割伤的结论,只能给出是“锐器”。起初,我们也怀疑过“是不是客户的机房,整体的电源供应不稳
定?”但假如真是这样的话,故障的部件应该就不止这一个内存了,所以是客户环境的问题,就能很快被推翻。
4、 用手、尖锐物体触碰金手指导致金手指脏污、损坏,容易出现内存无法识别。手上的油脂、汗液含有盐分和酸性物质,会导致金手指氧化;尖锐物体划伤金手指表面镀
层,破坏导电性能变差都会出现内存不识别的情况。
5、 服务器的内存存在插法限制,插错槽位就必须要重新插拔。重新拔插过程中再次引入扩容过程中易发生的放置不当导致的撞件、静电击穿和安装时的损坏等问题。
由于,绝大部分技术工程师,都有过自己的个人游戏主机,都有过类似的内存扩容操作,故此对该操作的警戒之心,下降了许多;
另外一个数据,也能很好地佐证,静电对内存的伤害。前文提到,8-9月这两个月的内存故障总和几乎要与1-7月的持平了,恰好8-9月的内存故障里面,扩容内存的故障占比也不低,综合来看,应该是进入秋冬季节之后,人体的静电问题加剧了,对内存的静电影响也加大了;
二、 问题解决规划 2.1、优化内存包装
独立内存泡绵区:
设计3个独立的泡绵模块,每个模块开4个内存槽位,每个槽位容纳1条内存。
每个泡绵模块设计一个手套存放区,用于存放防静电手套。
每个泡绵模块底座为全封闭式设计,防止内存从上方掉落。扩容指引也会贴在包装的上盖。
分离式底座:
底座设计为带有凹槽的托盘,用于稳固3个独立的内存泡绵模块。
泡绵模块可从底座中轻松抽出,便于一线或渠道按模块分发内存。
在内存防静电袋的开口处增加密封标签,标签长度约5cm,可以将静电袋开口封闭1/3,密封贴纸标签上增加警示语:
|
未使用禁止拆包 |
拆时必须戴手套 | |
违规操作可能会因静电导致内存芯片损坏 | ● 从功能上,它不止于“封口”,更是一个安全锁和状态指示器。
● 从沟通上,它在最关键的时刻(开袋瞬间)对用户进行了一次无声但强有力的安全提醒,无论用户是经验丰富的老交付还是初次装机的小白,都能接收到明确的防护信号。
改善后的内存验收方式渠道销售人员、一线销售人员在收到内存后通常会进行拆箱检验,检查内存数量是是否正确、内存型号和容量是否匹配:
1、 在拆箱检查数量时,打开包装盒拿走最上层防震泡绵即可看到内存,每组泡绵模块可插入4条内存,有3组泡绵最大支持12条内存;同时每组泡绵配置一副手套,检查时
请勿丢弃手套。
2、 验证内存型号时,请将内存从泡绵槽位中拿出,勿拆封防静电袋,静电袋封口是向“无标签”的一面折叠并张贴防拆标签,通过防静电袋即可查看内存型号、容量等信
息。
改善后的内存分发方式内存扩容时,客户的设备可能不在同一个机柜,或者不是同一个人做的,这个时候需要将内存分成几份到不同的“扩容现场”,请按照操作:
1、 内存泡绵模块采用一组可容纳4条的设计,并进行封底,分发时请将一组泡绵模块从底座中向上提起,整组分发到扩容的设备附近
2、 请勿将内存条从泡绵模块中拿出“抓在手里”放到扩容现场,此操作撞件风险极高
3、 请勿将泡绵模组中的手套丢弃,此操作将导致交付工程师没有放静电手套使用,内存受到静电损坏的风险急剧增加
4、 请勿将内存的防静电袋拆除丢弃,内存分发到扩容现场后由交付工厂师逐条拆除防静电袋和安装内存
2.2、加强质量守护意识
供应链已面向全国技服下发了静电手套(收件人是区域助理),故此,在这里呼吁大家,加强扩容作业的静电防护意识,如手套有缺失,可按需申领(类似网线的申领),建议:
1、 协调时间,组织区域的交付团队(原厂+渠道)进行扩容作业的规范性宣导。
2、 当一线执行内存扩容的服务工单时,拍照、上传到系统。照片务必要有穿戴静电手套的效果(这个不强制,各个区域按自己的实际情况来执行)
谨记:内存不能混插
为什么内存的不同品牌和型号,不能混用?
内存的品牌、型号、频率、时序等等参数是否一致,会影响到数据读取是否稳定;用一个比较容易理解的例子快速说明:
一个100人的士兵方阵在走阵步,其中1个士兵每次的步幅、频率都比其他99个士兵相差0.1公分、0.1秒;假如一共只走十步、二十步,不会出什么问题,但长期走下去,方阵一定会紊乱;这也正是,为什么混插内存之后,服务器会莫名其妙地宕机、重启之后又一切正常,但过一段时间之后又出问题。与之对比的家用电脑偶尔也有内存混插,但几乎从来不出问题,也正是个人电脑的重启频率,远远高于服务器,主动规避了此类风险;
三、 内存扩容指引