后疫情时代,由于PC机在批量运维、安全治理等多方面存在管理弊端,大规模远程移动办公逐步成为一种核心诉求,而传统IT架构却无法很好满足。
桌面云凭借较好的数据安全保障能力、管理便捷性和运维效率,为数字化办公提供了有力支撑。
国内外桌面云智能运维现状
国内桌面云运维方案多以平台和业务管理为主,主流的服务商一般都具备资源管理、系统监控、权限管理、硬件管理等能力。但在大规模数据智能分析、全栈数据监控领域、数据与桌面治理联动等层面,各个服务商发力点不同,这也是当前云桌面全栈智能运维的核心痛点,即:如何联动桌面云产生的大规模数据,实现桌面云系统全栈的自动化监控、分析与治理。
国外桌面云服务商,总体向智能化分析诊断迈进得更早。除了具备平台管理能力外,一般还具备智能化监控和处理能力,如收集CPU使用量、内存、数据存储、磁盘、虚拟磁盘、网络、电源、磁盘空间、存储以及摘要衡量指标,利用AI技术进行容量预测、异常检测、智能告警甚至根因分析等。
在整体的智能化运维方案和功能方面,国外桌面云服务商整体较国内的服务商更加完善。
从下表中可以看出,深信服桌面云IOM智能运维引擎以监控、分析、处置三者联动为基础设计思路,融合AI智能算法与专家规则,实现了VDI场景下全栈资源采集与分析。其智能探针在资源消耗极低的情况下,实现了虚机、主机、集群、硬件等多层级数据采集与调度分发;在分析能力方面,IOM内置了自更新的AI健康评分模型,卡慢诊断准确率高达90%,并基于历史卡慢经验库生成处置建议,形成监控、分析、处置闭环,达到降本增效的效果。
↑ 部分桌面云服务商智能运维能力对比
IOM:解决70%以上的桌面云运维管理问题
IOM(Intelligent Operations Management) 是深信服桌面云智能运维引擎,可以提供业界领先的桌面云性能诊断方案,即侦测、发现和解决70%以上的桌面云资源瓶颈问题。
系统结合机器学习算法和人工智能技术,囊括了应用、网络、存储、虚拟机、物理机等体系的运维解决方案,实现桌面云性能问题的快速排查,包括但不限于虚拟机卡顿、物理资源瓶颈、应用异常、网络中断、木马入侵等,7*24小时不间断智能分析桌面云性能问题,提供全方位的优化解决方案。
↑ IOM智能运维整体概览图
IOM核心AI能力详解
为实现桌面云系统全栈的自动化监控、分析与治理,深信服创新研究院凤凰团队联合桌面云团队从0开始,自研了AI自驱的桌面云运维管理引擎 IOM,其核心能力如下:
1.成本管理
(1) 闲置虚拟机识别。通过随机森林分类模型,结合专家经验分析历史虚拟机运行数据,自动识别出闲置的虚拟机。回收闲置虚拟机,可大幅降低集群资源消耗,降低成本。
(2) 可减配虚拟机推荐。通过AI智能算法结合专家经验规则分析统计过去7天的历史数据,推荐出可以减配的虚拟机列表。合理配置虚拟机资源可以让集群运行更流畅,减少不必要的管理开销,资源利用更合理。
2.效能提升
(1) 全局体验健康评分。基于Bagging策略的分段线性回归算法对虚拟机、主机、集群运行状态进行实时监控并智能评分。根据智能评分可直观了解到机器运行健康状态,并根据健康评分实施优化和处置方案。
(2) 非法进程与恶意软件识别。通过AI算法结合专家经验规则分析计算历史软件资源消耗数据,识别出待优化软件的资源消耗并估算出优化后的效果。当系统资源不够或出现卡慢时,及时处理非法与恶意软件能带来较大的体验提升。
3.质量改进
(1) 待扩容虚拟机推荐。智能推荐出待扩容的虚拟机列表。根据集群最佳体验容量和主机负载情况,推荐待扩容虚拟机配置,解决虚机卡慢问题,提升用户体验。
(2) 虚拟机迁移方案推荐。通过AI智能算法分析计算历史虚拟机潮汐数据,自动地推荐迁移路线。根据推荐建议迁移相关虚拟机,可以更平稳地使用集群资源,提升整体用户体验。
总体来说,IOM智能运维引擎,基于自研插件化采集探针、AI智能分析引擎等核心技术方案,实现了VDI场景下的成本管理、效能与质量改进,为深信服桌面云全栈资源监控、分析与诊断保驾护航。
以上就是本期《信服云黑板报》的分享,关注我,持续关注更多技术干货内容哦!