深信服 HCI 替代 VMware 实施过程中的运维审计痛点?
1. 背景说明 原生产环境基于 VMware vSphere + vCenter + vSAN 构建虚拟化平台,并通过 Syslog 实时将平台操作日志集中存储至 ELK,满足金融行业监管要求(≥3年日志留存)。 进行国产化替代,将平台迁移至 深信服 HCI(超融合),迁移完成后,发现以下问题对运维审计、合规追溯及日常管理带来重大影响。
2. 当前架构与技术栈 虚拟化平台:深信服 HCI(基于 KVM) 存储:SDFS 分布式存储 网络:DVS 分布式虚拟交换机 日志:HCI 内置数据库存储,查询需登录控制台 审计需求:操作日志 ≥ 3 年保留,并可集中检索
3. 真实业务场景与痛点现象 金融行业合规审计 监管部门抽检时,需要调取 18 个月前的虚拟机操作记录(如创建、删除、迁移)。 在 VMware 环境可直接从 ELK 检索获取;迁移至 HCI 后,半年以上的日志已被系统自动清理,无法追溯。
痛点表现 日志只保留半年 虚拟机关键操作记录(创建、删除、快照、迁移)仅保留 6 个月,且不可自定义周期。 无法满足金融、政府、能源等行业 ≥3 年的合规要求。 无外部日志转发能力 HCI 不支持将操作日志通过 Syslog 或 API 实时送往 ELK/SIEM,无法统一管理。 安全审计团队需逐台 HCI 集群手动导出 CSV,工作量极大。
虚拟机创建时间缺失 控制台和 API 中均无“创建时间”字段,无法按时间维度梳理虚拟机资产。 易出现误删历史虚机、统计失真等风险。 日志查询性能不足 当集群虚机数 > 800 时,操作日志检索明显变慢,部分时间段查询超时。
4. 临时应对措施 手动导出日志:每季度导出 CSV 存档至 NAS,按时间命名管理。
自研日志抓取工具:Python + Selenium 自动登录 HCI 控制台抓取日志,推送至 ELK。
补充虚机元信息:在 CMDB 手工记录虚机创建/迁移时间,作为追溯依据。
5. 建议的产品优化方向(已提交) 开放日志保留周期自定义(支持 1 年、3 年或长期保留)。
提供操作日志 Syslog/API 转发功能,便于对接集中日志平台。
在虚拟机属性中增加“创建时间”字段,并支持 API 调用查询。
优化日志检索性能,支持标签化、时间范围快速过滤。
6. 影响评估 合规风险:无法满足银监、证监、审计等监管要求。
运维效率下降:无法集中查询,需额外人力维护日志归档。
数据追溯困难:半年后问题无法定位责任方。 |