一、问题描述
超融合新出了aDeploy3.0的巡检工具,本次巡检超融合,发现该工具能正常登录,也能正常对超融合集群进行巡检,但是巡检结束后无法下载报告。如图为工具的初始界面 二、告警信息/故障现象 三、处理过程 3.1 确认平台端口443未被修改,点击重新巡检,出现错误,点击返回也出现错误,过了一会,重新巡检也是这种问题。如图 3.2 研发让取aDeploy的log日志,排查到巡检工具连接协议协商失败,导致巡检失败的,但是不知道什么原因导致; 3.3 过了一会儿,重新巡检,这次进行自定义检测,发现正常 3.4 打算登录后台查看,很奇怪的是后台进不去了,telnet 22端口也不通。 咨询研发,aDeploy工具的巡检检测机制——新版本是并行的脚本命令检测(老版本的是串行) 至此问题比较明确了,应该存在某限制策略——限制短时内同一ip的ssh连接数 3.5问客户有没有限制短时内同一ip的ssh连接数,客户答复没有。 再次沟通,了解到网络中有我们的1透明AF,1透明AC,1路由AF,问题应该就在这三台之一了
3.5 分别登录三台设备,检查连接数控制策略,未配置; 3.6 开直通,发现可以正常巡检了。其中一台AF的日志如下: 3.7 该标记为联动封锁标记,查看所有安全防护策略的联动封锁,并没有配置 3.8 看是否有配置IPS,因为IPS默认启用防暴力破解,且有针对ssh的策略 3.9 将IPS改成允许测试,发现可正常巡检。 再次改成拒绝,发现又不行了 小插曲 隔了一天,巡检工具出了3.0.1新版本,有了个改进是,巡检出错后会点击重新检测或者返回或者再次巡检会提示ssh服务端口信息;而3.0.0版本只会提示是未知错误 四、故障分析 aDeploy工具的巡检检测是并行的脚本命令检测,IPS的策略会将其识别成口令暴力破解,而将其封锁
五、解决方案及总结 初次遇到这种问题时,比较棘手,因为根本不知道什么原因导致,log日志也看不懂。但是遇到一次之后,后续就都好解决了
解决办法:使用aDeploy巡检时,暂时关闭IPS策略。大概1-5分钟即可 |