一、问题反馈
用户管理员反馈近期多次在上午九点左右部分内网终端无法上网,但到了九点五十左右该部分终端网络自动恢复正常的情况(故障终端没有任何规律)。 二、网络结构 核心以下的汇聚和接入交换机省略,该用户宿舍和办公走的同一套网络 三、问题分析与排查 1、在初次收到问题反馈时,由于网络已经恢复,只能根据客户的问题描述进行设备配置检查 考虑到反馈中有时间参数,并且网络会自动恢复,于是先检查所有带时间参数的策略 核心上未发现有ACL配置 上网行为管理上未发现有这个时间点的时间对象 防火墙上也未发现这个时间点的对象 检查AC和AF上的内网DOS攻击防护,发现也并未开启(之前有遇到过因为启用内网Dos攻击防护导致部分终端上不了网的情况) 检测了AF和AC的策略,也没有发现异常,于是告知客户在现象出现时第一时间通知我们,同时在故障主机做去往DNS的路由追踪 2、第二次收到客户反馈也正是在九点一十左右,通过故障主机tracert,发现到防火墙不通(防火墙未隐藏路由追踪),于是pingAC的地址,发现到AC是通的,在AC上面启用定向直通,发现故障终端上网恢复正常,定位到是AC拦截了,进行用户故障排查,报错显示认证失败。emo了,内网不需要认证也能认证失败?把问题反馈给400 400检查了在线用户管理,发现在线用户数达到了1000人(此图为故障前的截图) 告知该设备能允许的最大在线用户只有1000人,超过1000的终端都无法通过认证。思考临时解决办法,由于不需要认证终端无法强制注销,于是将宿舍的认证策略改成密码认证,然后改回不需要认证,原有在线用户就自动清除掉了,新的终端成功通过认证,网络恢复。 四、总结 该问题是近期发生的,分析得出,是由于近期疫情影响和世界杯的举办,导致客户公司留宿人员增多,终端数量上升。但客户公司员工在400人左右,按照每人两台终端也不应该会超过1000,根据九点五十网络会自动恢复,客户八点半上班,推测大量用户在七点五十左右离开宿舍吃早餐并前往办公楼,此时AC上面会存在该用户手机端在宿舍和办公楼同时存在两个不同IP的用户,AC上面无流量自动注销的策略时间是两个小时,在九点五十左右宿舍楼这部分IP自动注销,网络恢复正常。 临时解决方案:缩短无流量用户自动注销时间、强制每天清除在线用户 长期解决方案: 1.将宿舍网络和办公网络分离,两边各用单独的AC进行上网管控 2.更换高性能AC |