机房温度监控是运维过程中较为关键的一环,但往往在客户自建的机房中,对于温度的监控和告警较为忽视,当温度过高时,会导致物理服务器出现硬件故障,危及整个集群的业务。 (图源网络,侵权立删)
河南某学院运维负责人李老师在外地出差学习,因为是放假期间,学校系统使用频率低,服务商的值班人员也并没有花时间每天巡检服务器和IT系统。一些基本的教务和一卡通系统都在平稳的运行,一切看起来和过去的每一天没什么不同。 (图源网络,侵权立删)
突然,正在上课的李老师手机传来“滴滴滴滴”急促的电话铃声,电话号码显示是深信服的服务呼叫。李老师心想,放假期间这个时候服务人员打电话来,肯定是有什么要紧的事情,于是赶忙接了电话。电话那头的工作人员反馈“学校机房xx主机CPU出现了降频现象,且温度在持续升高”。 (图源网络,侵权立删)
接到反馈之后,李老师第一时间打给了机房运维的同事确认,机房运维同事这会刚刚到学校,立刻开始排查,发现机房空调故障导致温度达到了60度,如果不及时处理可能引发失火,还好通过这次云端监控发现了事故的苗头,把风险扼杀在事故之前。挂了电话后,李老师回忆起了放假之前深信服工程师的一次拜访。 (图源网络,侵权立删)
“李老师,这次给咱们的超融合接上了云端智能大脑,就不用担心IT上出问题没法及时发现了,IT系统亚健康了也不用担心,会第一时间通知您的!”深信服小冯边操作超融合设备边说。李老师心里默默想着:“多了一个功能也不错,看看后面能发挥什么作用吧”。 (图源网络,侵权立删)
规避失火事件发生后,李老师出差回来,和深信服服务人员交流的时候说到:“一般没有机房变更等任务时,很少会去机房吹冷风,硬件检查也只是一月一次的例行检查,所以对于这种突发的隐患很难及时发现,此次非常感谢深信服服务团队的及时发现,才避免了一场灾难” 深信服云端智能大脑ITOM全栈监控IT风险和故障,针对容易被忽略的潜在的隐患做第一时间的发现和预警,例如CPU温度预警、光模块光衰检测等,能够发现平常难以发现的问题,把问题扼杀在摇篮里。 如需申请服务可联系当地办事处服务经理或拨打400-630-6430了解更多详情 |