随着企业数据资产不断累积,数据库也逐渐庞大。如何在半小时内巡检完所有的数据库?如何防范风险并及时应对?深信服DMP即可搞定,并能够帮助企业实现简化运维。
该平台搭载智能诊断助手,帮助企业开展数据库的监控、巡检、诊断、优化等多项工作,支持MySQL、Oracle、SQLServer等主流的数据库产品。
智能诊断助手两大模块
收集模块主要是用于收集和存储系统的运行数据和指标。各种类型的探针完成相关数据(包括系统数据、网络数据、数据库数据、消息和事件等)的探测和采集后,通过接口提供给收集系统。
指标采集组件主要包括两类:一类收集系统的指标,包括云主机的CPU、内存和磁盘等相关信息;一类收集数据库的性能指标,指针连接上数据库系统,通过相关SQL语句采集数据库的性能指标。
收集系统会定时收集数据库和云主机系统的运行指标和关键数据,再通过接口写入到时序数据库(TSDB)中。收集系统采用的是telegraf+influxdb的开源组件组合,通过telegraf组件拉取指标采集系统上面的信息,再存储到时序数据库influxdb中。
分析模块主要提供监控和诊断相关的功能和服务。监控模块负责处理实时数据以及调度相关的任务更新配置,通过各类查询语句和程序进行处理实时数据。诊断模块基于规则策略和专家经验,结合学习引擎处理各类诊断分析接口,提供巡检和智能诊断的功能。
这些模块的工作机制是,收集模块采集数据库和系统环境的指标和数据,并传输相关事件和指标到时序数据库和监控中心。监控模块和巡检模块处理数据以后输出到告警平台和用户界面上面,通过API和Web服务给用户界面提供性能图标、监控大屏以及各类告警和诊断的功能。
智能诊断助手四大功能
与传统数据库管理方式相比,智能诊断助手具有实时监控、健康巡检、智能诊断、多维分析四个特点。
实时监控
实时监控收集丰富和细粒度的监控指标,实时显示数据库的运行状态。
比如MySQL数据库,智能诊断助手从链路上采集超过200个以上云主机和数据库性能指标以及相关信息,通过监控大屏和集群概览提供基于排行的集群的状态,让用户实时了解每个数据库系统的整体运行情况。
系统完成大量的数据分析之后,基于数据库领域的实时预测和异常分析算法,对潜在的风险进行告警和提示,让用户关注风险高的数据库,避免信息过载。
在监控大屏的区域内,显示了集群概览、告警趋势和指标排行等用户需要关注的不同类型和级别的信息。
健康巡检
健康巡检对集群定时进行健康状态扫描,帮助用户深入了解数据库实例健康情况、发现系统不合理的状况和潜在的风险。
智能诊断助手基于丰富的知识库和全面的巡检算法,细化并关注每个数据库的健康状况。
以Oracle数据库为例,巡检包括了系统资源、数据库集群、数据库配置、数据库对象和数据库性能等五个大类,超过50多项的巡检项和算法的支持,全面真实还原了数据库的配置和运行情况,并结合最佳实践和专家经验,在巡检报告中总结和归纳出系统状态和潜在问题,给出一份专业的健康报告。
下图Oracle的巡检报告第一部分巡检概况就总结归纳了整个数据库系统在巡检期间的运行情况。
智能诊断
可以直观便捷地查看当前数据库的整体运行状况。从系统、性能和实时运行情况等多个维度,帮助用户快速诊断系统运行情况,直接定位和处理相关问题。
基于数据库运行的指标数据和系统实时状态,包括系统的资源情况、性能数据、实时会话、锁情况和性能情况等等,智能诊断助手对数据库的运行情况完成全方位的整体评估,用户可以直观了解诊断结果,并通过诊断助手提供的处置方式快速定位和分析问题,对相关异常快速处理,从而解决问题。
多维分析
性能问题是数据库运行管理中的痛点,智能诊断助手的多维分析提供了可视化的性能和指标的对比工具,通过直观的性能数据对比,多维度地动态查看和钻取数据库的性能数据。
针对Oracle数据库,多维分析功能结合了DB Time和AWR中的各类丰富的统计信息,可以显示不同时段的DB Time趋势信息。
用户可以在DB Time趋势图上任意圈选值得关注的时间区域,分析系统可以方便统计出这段时间AWR中各类统计信息(Top SQL、TOP会话、TOP Event和TOP Service/Module等),并查看相关的SQL语句和执行计划,帮助用户直观对上述整理好的信息做分析处理,快速定位系统的性能瓶颈。
对于MySQL数据库,多维分析通过对系统资源和慢SQL数量的各维度的对比信息,帮助用户定位系统和查询性能的瓶颈。
在SQL语句的优化上,多维分析综合了Oracle的STA商业工具、Percona Toolkit和SOAR等开源系统,结合规则系统,给用户提供专业和直观的查询计划分析和优化建议。
基于以上的功能和特性,智能诊断助手能有效帮助用户快速发现数据库运行与维护中的问题,帮助企业及时防范和应对风险。
比如,某数据库使用智能诊断助手对数据库运行情况进行检查,发现许多空闲异常连接,然后使用智能诊断的会话管理对这些异常连接进行关闭,并通知相应应用开发做出修改,使系统整体性能有了较大提升。
某数据库出现部分查询无法响应的情况,使用智能诊断助手分析后发现是数据库等待事件导致应用阻塞,使用诊断助手提供的锁分析工具对造成阻塞的进程进行处理,之后等待事件消失,应用恢复正常。
某数据库出现CPU和IO等指标同比上升明显的现象,智能诊断助手分析之后确认是一个慢SQL导致,然后使用SQL优化功能对该SQL进行分析和优化,SQL语句优化处理上线后提升了性能效果,CPU和各项指标恢复到正常,完成了问题的闭环处理。
有了深信服DMP的智能诊断助手,用户不仅可以降低运维成本,也能轻松保障数据库的稳定安全。
以上就是本期《信服云黑板报》的分享,关注“深信服科技”公众号,持续获取更多技术干货内容哦!