本帖最后由 徐晓龙 于 2025-2-28 12:27 编辑
问题现象
系统:windows server 2019 内存:256 存储:2T(预分配) 从刚开始两天一黑屏,过两天后每天早上会有一段时间会黑屏卡死,无法操作,黑屏5-10分钟左右,金蝶、ERP服务启动不起来,客户端连不上服务端,重启之后将恢复业务。
排查解决过程 通过自己排查集群正常情况,包括前端检测、后端跑脚本,检测下来都是正常想象。陷入了是否由于友商系统导致的情况,没有证据是友商系统导致的情况下,又进一步进行监测虚拟机的状态。从内存快照到虚拟机dump文件日志获取。每次业务无法正常对接后,客户能够接受断业务的时间也短,导致每次进入后台获取dump文件的时候,无法正常获取到,客户就直接关机重启恢复业务了。
通过windows 系统报错信息看,提示报错“svchost (1768,D,10)SoftwareUsageMetrics-Svc: 刷新日志文件 c:Windowslsystem32Logfiles(Sum\svc.og 时无法写入2扇区。错误-1011(0xfftcOd).”和 “svthost (1768,D,0) SofwareUsageMetrics-Svc: 系统错误 1453(0x00005ad):"配颜不足,无法完成请求的服务。"发生 0.000 秒后,在文件"C:Windowslsystem32Logfiles(Sumisvc.loa"中偏移量 3321856 0x0000000326000)写入4096(0x00001000)字节的尝试失败,写入操作将失败,并出现者误-1011(0xftcod),如果此错误持续存在文件可能会被损坏,并可能需要从以前的备份中还原。”
在对客户系统故障进行深入分析时,友商和客户普遍认为故障可能由超融合硬件引起。然而,经过进一步思考,如果确实是硬件问题,那么所有虚拟机都应受到影响,而不仅仅是部分系统。基于这一逻辑,对硬件进行更仔细的排查。 通过使用“纪元平台”对设备硬件状态进行巡检,发现“预警补丁检测”的问题。迅速对相关补丁进行修复操作。修复完成后,再次对系统进行复查,确认修复后,进行观察是不是补丁包导致的相关问题,进行对应的观察,问题现象还是存在。
解决思路 1、如何实时检测系统是否正常 2、跳过问题系统测试
针对客户系统故障的修复过程中,尽管采取了多种措施,但效果并不理想。系统仍然频繁出现黑屏现象,且每天黑屏的时间点毫无规律可循。面对这一棘手问题,决定采用一种新解决方案,即为客户推荐体验“ITOM智能运维服务”。通过业务拨测的检测方式,能够精准地监测系统运行状态,从而判断故障是否对客户的业务造成了实质性的影响。在部署的一天晚上,客户就收到业务搭建其他虚拟机的内存不够的短信,体验到了智能运维服务的告警通知,客户侧反馈是比较好的。 与此同时,为了彻底排查问题根源,我们重新搭建了一个全新的运行环境——Windows Server 2019,并将客户的ERP系统以及金蝶K3业务系统迁移至该新环境。令人欣慰的是,迁移完成后,系统运行稳定,未再出现任何异常情况。由此,基本排除了因超融合架构导致问题的可能性,客户的业务也得以恢复正常。 这次经历不仅为客户解决了实际问题,也让他们对我们的“ITOM智能运维服务”有了更深入的了解。在后续的续费过程中,客户主动将“ITOM智能运维服务”纳入了他们的续保项目中。这不仅是对我们技术实力的肯定,更是对我们服务价值的认可。
PS:智能运维服务,即时过保也可以进行体验1个月!!!+++ PS:智能运维服务,即时过保也可以进行体验1个月!!!+++ PS:智能运维服务,即时过保也可以进行体验1个月!!!+++ |