超融合搭载金蝶K3、ERP系统每日卡死 (ITOM)
  

徐晓龙 1804

{{ttag.title}}
本帖最后由 徐晓龙 于 2025-2-28 12:27 编辑

问题现象

系统:windows server 2019
内存:256
存储:2T(预分配)
       从刚开始两天一黑屏,过两天后每天早上会有一段时间会黑屏卡死,无法操作,黑屏5-10分钟左右,金蝶、ERP服务启动不起来,客户端连不上服务端,重启之后将恢复业务。


排查解决过程
       通过自己排查集群正常情况,包括前端检测、后端跑脚本,检测下来都是正常想象。陷入了是否由于友商系统导致的情况,没有证据是友商系统导致的情况下,又进一步进行监测虚拟机的状态。从内存快照到虚拟机dump文件日志获取。每次业务无法正常对接后,客户能够接受断业务的时间也短,导致每次进入后台获取dump文件的时候,无法正常获取到,客户就直接关机重启恢复业务了。

       通过windows 系统报错信息看,提示报错“svchost (1768,D,10)SoftwareUsageMetrics-Svc: 刷新日志文件 c:Windowslsystem32Logfiles(Sum\svc.og 时无法写入2扇区。错误-1011(0xfftcOd).”和 “svthost (1768,D,0) SofwareUsageMetrics-Svc: 系统错误 1453(0x00005ad):"配颜不足,无法完成请求的服务。"发生 0.000 秒后,在文件"C:Windowslsystem32Logfiles(Sumisvc.loa"中偏移量 3321856 0x0000000326000)写入4096(0x00001000)字节的尝试失败,写入操作将失败,并出现者误-1011(0xftcod),如果此错误持续存在文件可能会被损坏,并可能需要从以前的备份中还原。”

       在对客户系统故障进行深入分析时,友商和客户普遍认为故障可能由超融合硬件引起。然而,经过进一步思考,如果确实是硬件问题,那么所有虚拟机都应受到影响,而不仅仅是部分系统。基于这一逻辑,对硬件进行更仔细的排查。
       通过使用“纪元平台”对设备硬件状态进行巡检,发现“预警补丁检测”的问题。迅速对相关补丁进行修复操作。修复完成后,再次对系统进行复查,确认修复后,进行观察是不是补丁包导致的相关问题,进行对应的观察,问题现象还是存在。

解决思路
1、如何实时检测系统是否正常
2、跳过问题系统测试

       针对客户系统故障的修复过程中,尽管采取了多种措施,但效果并不理想。系统仍然频繁出现黑屏现象,且每天黑屏的时间点毫无规律可循。面对这一棘手问题,决定采用一种新解决方案,即为客户推荐体验“ITOM智能运维服务”。通过业务拨测的检测方式,能够精准地监测系统运行状态,从而判断故障是否对客户的业务造成了实质性的影响。在部署的一天晚上,客户就收到业务搭建其他虚拟机的内存不够的短信,体验到了智能运维服务的告警通知,客户侧反馈是比较好的。
       与此同时,为了彻底排查问题根源,我们重新搭建了一个全新的运行环境——Windows Server 2019,并将客户的ERP系统以及金蝶K3业务系统迁移至该新环境。令人欣慰的是,迁移完成后,系统运行稳定,未再出现任何异常情况。由此,基本排除了因超融合架构导致问题的可能性,客户的业务也得以恢复正常。
       这次经历不仅为客户解决了实际问题,也让他们对我们的“ITOM智能运维服务”有了更深入的了解。在后续的续费过程中,客户主动将“ITOM智能运维服务”纳入了他们的续保项目中。这不仅是对我们技术实力的肯定,更是对我们服务价值的认可。


PS:智能运维服务,即时过保也可以进行体验1个月!!!+++
PS:智能运维服务,即时过保也可以进行体验1个月!!!+++
PS:智能运维服务,即时过保也可以进行体验1个月!!!+++

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

发表新帖
作者其他文章
热门标签
全部标签>
每日一问
高手请过招
【 社区to talk】
新版本体验
产品连连看
功能体验
标准化排查
纪元平台
平台使用
信服课堂视频
社区新周刊
安全效果
GIF动图学习
安装部署配置
S豆商城资讯
每周精选
产品解析
关键解决方案
专家问答
技术笔记
设备维护
存储
2023技术争霸赛专题
华北区交付直播
畅聊IT
答题自测
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
资源访问
地址转换
虚拟机
迁移
排障笔记本
产品预警公告
玩转零信任
技术争霸赛
「智能机器人」
追光者计划
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践

本版版主

197
345
1001

发帖

粉丝

关注

217
292
151

发帖

粉丝

关注

25
16
5

发帖

粉丝

关注

7
12
27

发帖

粉丝

关注

5
10
7

发帖

粉丝

关注

32
38
46

发帖

粉丝

关注

1
1
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人