本帖最后由 阿勒泰 于 2022-8-24 18:00 编辑
链接2:微信视频号-深信服技术支持 问:为什么要研发这样一款巡检工具呢? 答:以往的健康检查,更多需要依赖相对专业的技能,以及较多的精力投入。但随着设备不断的增多,运维的难度也会不断地加大,所以我们希望通过自动化的方式来释放运维人员在设备健康状态上的运维精力,同时也降低对人员能力的高要求。 问:我们深信服的aCheck巡检内容会涉及哪些? 当前aCheck的巡检能力大致分为五部分: 一、设备硬件运行风险检查。比如SSD磁盘寿命、网卡收发包状态。 二、设备软件运行风险检查。比如设备性能负载、内核日志分析。 三、设备能力差距分析。比如设备当前版本,规则库版本差距分析。 四、设备安全运行风险检查。比如说账号密码、排除名单。 五、设备缺失补丁风险检查。比如重要补丁、紧急补丁等修复。 问:aCheck的巡检准确率有多少? 答:aCheck的能力经过三年的持续打磨,目前在已知风险的识别与判定上,准确率高达95%,当然不排除部分涉及到性能负载及内核日志异常的指标,需要人工进行深度分析。 问:aCheck的优势有什么? 答:aCheck的优势主要有以下几方面: 一、时间成本。按以往人工巡检的方式,对单台设备巡检至少需要0.5天。那么现在通过aCheck的意见巡检,只需要3~10分钟即可完成巡检工作。二、操作便捷性。aCheck的整体易上手操作也比较方便。 三、工作效率。aCheck巡检完成之后,会自动生成巡检报告,可以更好的辅助我们完成风险处置,以及运维成功的汇报工作。 以补丁修复为例,aCheck具备从设备缺失补丁巡检再到缺失补丁下载,最后到缺失补丁升级,完整的全流程闭环能力,减少风险发生后处置难的一个问题。
上面是逐字稿,看了视频的同学可能会觉得很水,下面分享点自己接触到的一个案例
手边能接触到的不光是深信服的设备,还有一套其他厂商云计算的设备,经常要配合厂家的工程师进行升级前后的检查,他们也是用自己的工具,进行日志的收集巡检等工作,在某一次需要升级20-30台服务器, 说说对比: 1.如果要手动收集信息的话,工作量就变得非常的大,时间成本就会变得比较多。 2.第三方平台没有接入。 3.有巡检工具,算上升级工具,收集日志,一共用了2个小时,算上冗余时间半个人天就能完成,效率提高很多。 所以, 巡检工具对运维工作的作用还是非常重要的。 |