分布式数据中心节点多?看托管云如何实现精细运维
随着用户数据中心节点的增多,在管理数据中心上,网络突然中断、流量高并发、网络配置异常、网口硬件异常等问题时有发生。依靠人工手动进行网络质量及故障分析,并根据经验进行故障处置的传统运维方式,无法全面覆盖数据中心出现的问题。
为此,信服云托管云研发了网络全链路质量感知与分析系统。
该系统能够综合运营商、物理网络、主机网络、VPC网络等多层网络视角,为运维使用者提供一套全链路网络质量感知及智能分析解决方案 ,有效提升告警质量和告警后排障效率。
↑ 网络全链路分析处置系统能力
网络链路主动拨测
可以优化监测分析及可视结构,并基于上下游关联告警自动挖掘和聚合方法聚合缩减非必要的监测告警,分钟级发现网络通断及卡慢,在大量告警中快速定位到根因,为IaaS管理员快速梳理机房和各租户的网络连通性状态,为租户快速梳理其虚拟机内部的网络状态报告。
↑ 提供全部探测及分析结果的详情
↑ 提供虚拟机内部端到端TCP/UDP通信对的网络质量可视与分析
基于RTT时延动态基线的风险预测
基于RTT时延动态基线进行风险预测,支持智能基线的自动学习,通过对正常状态下指标的历史表现,加以调整后作为基准线,与以后同样时段的实时指标做对比,能根据历史记录自动生成基线,并可按照业务周期潮汐变化规律,形成以日基线、周基线的数据对比,一旦实时数据大于基线比对的一定范围,即生成告警事件,成功预测风险。
↑ 变化趋势预测
同时,该系统还会不断进化,未来可以实现虚拟机内部的应用网络质量和平台IaaS层的一体化联动多模态分析,实现更快的故障定界。
基于全量指标构建实体资源图谱体系,IT运维人员在排障时,也可通过关联分析在5分钟内定位到虚拟机内部、外部故障根因和处置建议,且能利用知识图谱直观掌握平台健康状态和故障影响面大小。
在网络资源配置推荐上,可以全面监控虚拟网络拓扑、配置、流量、数据面状态等数据,利用多种机器学习方法实现准确的数据面性能压力估计。基于数据面性能压力及网络流量历史趋势,关联预测数据面性能极限出现时间点并推荐最优数据面资源配置。
以上就是关于信服云托管云上网络全链路质量感知与分析系统的介绍,该系统可以帮助用户降低网络故障率,实现数据中心的省心运维。