超融合搭载金蝶K3、ERP系统每日卡死 (ITOM)
  

徐晓龙 2518

{{ttag.title}}
本帖最后由 徐晓龙 于 2025-2-28 12:27 编辑

问题现象

系统:windows server 2019
内存:256
存储:2T(预分配)
       从刚开始两天一黑屏,过两天后每天早上会有一段时间会黑屏卡死,无法操作,黑屏5-10分钟左右,金蝶、ERP服务启动不起来,客户端连不上服务端,重启之后将恢复业务。


排查解决过程
       通过自己排查集群正常情况,包括前端检测、后端跑脚本,检测下来都是正常想象。陷入了是否由于友商系统导致的情况,没有证据是友商系统导致的情况下,又进一步进行监测虚拟机的状态。从内存快照到虚拟机dump文件日志获取。每次业务无法正常对接后,客户能够接受断业务的时间也短,导致每次进入后台获取dump文件的时候,无法正常获取到,客户就直接关机重启恢复业务了。

       通过windows 系统报错信息看,提示报错“svchost (1768,D,10)SoftwareUsageMetrics-Svc: 刷新日志文件 c:Windowslsystem32Logfiles(Sum\svc.og 时无法写入2扇区。错误-1011(0xfftcOd).”和 “svthost (1768,D,0) SofwareUsageMetrics-Svc: 系统错误 1453(0x00005ad):"配颜不足,无法完成请求的服务。"发生 0.000 秒后,在文件"C:Windowslsystem32Logfiles(Sumisvc.loa"中偏移量 3321856 0x0000000326000)写入4096(0x00001000)字节的尝试失败,写入操作将失败,并出现者误-1011(0xftcod),如果此错误持续存在文件可能会被损坏,并可能需要从以前的备份中还原。”

       在对客户系统故障进行深入分析时,友商和客户普遍认为故障可能由超融合硬件引起。然而,经过进一步思考,如果确实是硬件问题,那么所有虚拟机都应受到影响,而不仅仅是部分系统。基于这一逻辑,对硬件进行更仔细的排查。
       通过使用“纪元平台”对设备硬件状态进行巡检,发现“预警补丁检测”的问题。迅速对相关补丁进行修复操作。修复完成后,再次对系统进行复查,确认修复后,进行观察是不是补丁包导致的相关问题,进行对应的观察,问题现象还是存在。

解决思路
1、如何实时检测系统是否正常
2、跳过问题系统测试

       针对客户系统故障的修复过程中,尽管采取了多种措施,但效果并不理想。系统仍然频繁出现黑屏现象,且每天黑屏的时间点毫无规律可循。面对这一棘手问题,决定采用一种新解决方案,即为客户推荐体验“ITOM智能运维服务”。通过业务拨测的检测方式,能够精准地监测系统运行状态,从而判断故障是否对客户的业务造成了实质性的影响。在部署的一天晚上,客户就收到业务搭建其他虚拟机的内存不够的短信,体验到了智能运维服务的告警通知,客户侧反馈是比较好的。
       与此同时,为了彻底排查问题根源,我们重新搭建了一个全新的运行环境——Windows Server 2019,并将客户的ERP系统以及金蝶K3业务系统迁移至该新环境。令人欣慰的是,迁移完成后,系统运行稳定,未再出现任何异常情况。由此,基本排除了因超融合架构导致问题的可能性,客户的业务也得以恢复正常。
       这次经历不仅为客户解决了实际问题,也让他们对我们的“ITOM智能运维服务”有了更深入的了解。在后续的续费过程中,客户主动将“ITOM智能运维服务”纳入了他们的续保项目中。这不仅是对我们技术实力的肯定,更是对我们服务价值的认可。


PS:智能运维服务,即时过保也可以进行体验1个月!!!+++
PS:智能运维服务,即时过保也可以进行体验1个月!!!+++
PS:智能运维服务,即时过保也可以进行体验1个月!!!+++

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

发表新帖
热门标签
全部标签>
新版本体验
每日一问
产品连连看
安全效果
功能体验
标准化排查
GIF动图学习
【 社区to talk】
纪元平台
信服课堂视频
社区新周刊
安装部署配置
流量管理
畅聊IT
技术笔记
上网策略
每周精选
高手请过招
全能先锋系列
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
测试报告
日志审计
问题分析处理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
平台使用
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

193
357
1003

发帖

粉丝

关注

11
4
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人