×

【排障那些事】那些逆天的言论
  

adds 80123人觉得有帮助

{{ttag.title}}
本帖最后由 adds 于 2024-8-20 09:40 编辑

    一、问题描述
       1.1  问题
       新旧设备切换后,网络访问异常,主要体现为VPN接入异常,早上一开始(9点上班前)接入正常,但过一会儿就异常,其他也有业务反馈异常。
      1.2  主要现象
1)出,用户普遍访问互联网慢。
2)入,对外提供的服务响应慢。
3)流量,在10点左右出口流量应该在2G左右,目前实测1.5G左右。
之前人员介入:7月22日星期一张三、7月23日星期二李四、7月31日星期三李四。
在2024年1月切换试运行一周没有问题。在7月19日周五切换后,7月22日周一发现有问题。
      1.3  时间
      当前时间是2024年8月1日上午。
      1.4  目前客户业务状态
      自7月19日上线发现问题后,一直是排查-->上线-->下线-->再排查-->再上线的反复循环。
      客户是某区政府,该网络区域设备为区总出口线路设备。
      期间各路神仙轮番上阵,两个厂商均积极配合排查,十分重视客户,各厂商检查各自设备均没有问题,但就是一上线就有问题,厂家销售、客户互相扯皮。
      今天客户明确说了,查不出问题来,两家都把设备拆回去自己测,测试没有问题再拿回来,客户的业务环境不允许 再这样测来测去。


      二、处理过程
      2.1  梳理网络拓扑
      当前网络现状。以深信服AD设备为节点,上下联设备情况如下。
     1)下联:
     AD设备下面联接FW,FW下联IPS,IPS下联AC,AC下联核心交换机。
     AD-->FW-->IPS-->AC-->SW
     2)上联:
     AD设备上联DDOS,DDOS上联SW。
     SW-->DDOS-->AD
     3)网络拓扑
      
     注:非客户真实现场拓扑,该图为后期根据客户描述自己画的。接口、IP、设备型号均为随机写的。
     4)涉及厂商
      深信服、***辰
      深信服设备为AD负载均衡和AC上网行为管理;***辰设备为DDOS设备、FW、IPS。

    2.2 排查方案
    排查方案是昨天已经确定的并且已经在进行了。
    即拔线将设备从网络中移除。
    1)将AC上网行为管理从网络中移除。
    这个AC在7月31日晚上已经从网络中移除了。
    但是在8月1日上午故障依旧,所以,不是AC导致的问题。
    2)将IPS从网络中移除。
    客户单位的流量在中午时分也要在1个G以上,平常切换设备都是放在晚上及周六日。
    放在中午这个一般是不允许的。
    看一下中间12点50分切换后的流量。
   
    切换后,网络故障依旧。
   3)将DDos设备从网络中移除
   移除后网络连接情况。
   运营商接入交换机-->AD-->***辰FW-->内网核心交换机
   目前的网络结构已经很简单了,就一个出口和一台墙。但问题还是存在。
   4)将FW从网络中移除。
   移除后网络连接情况。
   运营商接入交换机-->AD-->内网核心交换机
   现在就一个AD负载均衡了。
   在网络切换成功后,业务访问正常。
   一直到下午3点,网络依旧正常。
   至此,排查结束。

      三、根因
      3.1  故障原因
      第三方厂商FW导致的业务中断。
      推断是某条安全策略引起的,如果设置的策略有阈值,超过阈值就会引起后续的流量不正常。


     四、解决方案
      后续第三方厂商配合客户排查,我方未参与。


      五、插曲
      5.1   现场工程师跑路
      我到达客户同志的时间大概是9点30分,第三方厂商比我还要晚。我们称现场工程师为王五吧。
      上来一顿查。
       然后到11点半左右,王王跟客户说,我这块查完了,我们设备没有问题。如果没有其他的事,我就先走了。
       我当时心里说,这哥们真勇。我给你点个赞。
       客户说,你说你的没问题,他说他的没问题,那是谁的问题?为什么要你们都过来,就是要一起排查。查不出来,谁也不能走。
       王五,我下午还有安排,已经跟客户那边都约好了。
       客户,你下午的客户是客户,我就不是客户了。我的问题你给我解决了吗?你怎么证明你的设备没有问题?
       王五,我从我的FW去ping下联核心交换机,延时小于1ms,去ping上联的AD,延时小于1ms。AD负载均衡去ping公网延时好几ms,那肯定不是我的问题。(感谢王五没有直接说是AD负载均衡的问题,起码没有直接把锅甩给我)。
       客户像看傻子一样看着王五,你家设备到公网都是小于1ms的?
       这是当时王五在客户电脑上操作,然后让客户截的图,然后让客户发群里证明自己设备是正常的截图,现在在群里还有。不要说我杜㯢,你让我编我都编不出来。
       公网延时截图:
      
       当天群里截图:
      


       六、总结
      6.1   经验总结
      如果遇到这种多厂商在一起的场景,排查时间很长,但查不出来,挨个拔设备是一种很好的排查方法。
      但现场有时有很多限制条件,比如,上面设备是光口,下面设备是电口,这就不好移除了;有的业务重要,不能随便移除设备。
       还有最坏的情况,所有能移除的设备都移除了,还是有问题。那就只能闷头继续查了。

打赏鼓励作者,期待更多好文!

打赏
23人已打赏

牛风喜 发表于 2024-8-19 14:53
  
挨个拔设备是一种很好的排查方法
思贤 发表于 2024-8-20 09:15
  
每天坚持打卡学习签到!!
新手378833 发表于 2024-8-20 09:15
  
每天坚持打卡学习签到!!
新手780102 发表于 2024-8-20 09:36
  
一起来学习,一起来学习
talent 发表于 2024-8-20 09:46
  
一起来学习,一起来学习
傲世ღ万物 发表于 2024-8-20 10:01
  
每天坚持打卡学习签到!!
新手413594 发表于 2024-8-20 10:27
  
非常优秀的文章,谢谢分享了!
暗夜星空 发表于 2024-8-20 16:12
  
每天坚持打卡学习签到!!
平凡的小网工 发表于 2024-8-20 20:53
  
多谢分享,步骤很清晰,有助于工作。
发表新帖
热门标签
全部标签>
西北区每日一问
技术盲盒
安全效果
干货满满
技术笔记
【 社区to talk】
每日一问
信服课堂视频
GIF动图学习
新版本体验
2023技术争霸赛专题
技术咨询
功能体验
产品连连看
安装部署配置
通用技术
秒懂零信任
技术晨报
自助服务平台操作指引
原创分享
标准化排查
排障笔记本
玩转零信任
排障那些事
SDP百科
深信服技术支持平台
升级&主动服务
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
高手请过招
高频问题集锦
社区新周刊
POC测试案例
全能先锋系列
云化安全能力

本版达人

新手68983...

本周分享达人

零和一网络

本周提问达人