1.问题现象:
桌面云挂载客户NFS存储,提示创建NFS存储挂载失败,显示连接NFS存储失败,测试桌面云到NFS服务器ping能正常通信,telnet能正常通信。
2.排查思路 初步分析此问题感觉像是网络问题导致,问客户网络中是否存在安全设备,客户否认存在安全设备,进行抓包排查,再桌面云和NFS上进行抓包查看 桌面云IP地址(172.100.30.1),NFS IP地址(172.16.100.5) 客户端的数据包是在桌面云上抓到的,服务端的数据包是在NFS服务上抓到的,从抓包记录来看发现有两个问题 1.桌面云发过去的数据包存在大量的重传数据包,且再NFS服务器上只收到部分数据包 2.当桌面云与NFS建立TCP握手以后,NFS立即给桌面云发送RST中止报文中断了桌面云与NFS服务器的TCP连接,并且这个中断报文的ID字段为65535,再NFS服务器上并没有抓到这个RST中止报文 ID字段为65535的RST中止报文 服务端没有发送过此报文 由此数据包判断网络必定存在一个三方设备伪造了id为65535的RST报文发送给了桌面云,导致桌面云与NFS服务器TCP连接断开,一般此种三方设备为:防火墙、上网行为管理等等网络管控设备,并且此类设备发送RST报文此报文ID字段为65535,是一种特殊的报文,后续如果发现有id字段为65535的RST报文,此种报文一般都是由拦截设备发出。 将此报文给到客户跟客户解释后,客户最后排查发现NFS服务器安装了一个桌管软件,就是这个桌管软件拦截了桌面云的请求,再桌管软件将桌面云IP加白后恢复正常。
附件携带了当时问题排查的数据包,大家感兴趣的可以后续再观看下,还有一个PPT里面描写了再这种场景下,如果我们先再桌面云上过滤出一条数据流以后,如何再服务端也过滤出相同的一条数据流。 |