客户反馈用户使用桌面云使用卡顿,有170左右接入用户,存在用户正常使用的情况下VDI客户端显示延迟达到2000ms,退出客户端重新登录就正常,有时一天出现10次左右,有时一次也不会出现,VDC上查看虚拟机也存在虚拟机产生大量延时告警 询问下面使用人员再使用时也并未有共性操作,有用户只登录桌面云没有操作虚拟机也会再VDC上查看到此虚拟机产生严重时延
问题现象 查看<VDC><客户机管理><网络异常总览> 虚拟机存在大量时延告警
客户环境
拓扑逻辑环境如下
其中客户端再A楼,服务器再B楼两栋楼之间通过千兆光纤打通
排查思路
从目前表现现象来看大概率为客户端到服务器之间网络存在故障,因此优先对网络部分进行排查
1.查看异常PC VDI客户端日志
查看日志发现存在PC与VDI服务器连接超时的信息
2.将客户网络分为3端,客户端到客户端汇聚 客户端汇聚到管理网 管理网到真实服务器 再客户端汇聚、管理网设备放入一个PC连接VDC,同时对比客户端区域人员正常使用VDC运行一上午看哪台虚拟机出现故障则判断是那里出现的问题,同时再电脑上运行ping 和tcping 命令 ,一起观察当VDC产生网络延时时,ping 和tcping是否同时存在延时,以此判断是否是桌面云视频流传输协议导致的
第一次再下午3:00-6:00 测试结果如下:
客户端汇聚到服务器没有产生严重时延
客户端区域的PC到VDC也未发现严重时延
管理网设备到服务器只有一个200ms 此为正常现象
怀疑是下午测试用户没有并发上线场景导致,决定下次测试再8:00-9:00用户登录高峰期测试,且再测试时进行传输文件模拟大流量
第二次测试 8:00-9:00 测试结果如下:
管理网接入的PC 产生严重时延
对服务器进行抓包查看
发现存在大量TCP重传报文,且PC没有收到此报文,因为管理网交换机是和服务器直连,而再服务器上有发出的数据包PC没有接受的数据包因此判定管理网交换机存在问题
管理网交换机采用的是堆叠模式,服务器管理口采用主备聚合模式,再部署上并没有问题
登录交换机查看交换机是否有异常日志,发现部分接口出现广播泛洪告警
并且告警不是每天都存在,但出现告警的时间查看VDC虚拟机延时都是存在异常延迟,因此判定卡顿问题是此问题导致的,需要继续排查交换机产生广播告警的原因
3.客户的交换机是迈普厂家的,咨询迈普400 产生此告警只是再一段时间内发送泛洪报文过多就会产生,并不能以此判断产生环路,下面对交换机3个接口进行抓包处理 一个同管理VLAN的接口 一个是同业务VLAN 的接口 一个是其余VLAN 接口
抓包结果反馈再一段时间内交换机对单播数据包也进行了泛洪处理,过一段时间就会正常按照IP、MAC表转发处理,至此问题完全定制,联系客户网络管理人员和迈普厂家人员对交换机问题进行排查
4.使用华三交换机给迈普交换机替换掉发现仍有部分用户存在延迟高的问题(比之前反馈的情况能好些),由于之前已经排查网络问题,这次怀疑是终端或者线路问题,客户那边因为存在我们的小盒子于是使用小盒子替换客户PC电脑进行测试,连接桌面云一段时间后发现仍然存在高延迟现象,由此判断故障不是因为PC问题导致的,查看小盒子日志发现小盒子上有部分错误包的日志(错误包是指数据包再网络中传输时数据包受到损坏,终端PC无法再按照TCP/IP模型将数据包给重新封装起来)。产生这种错误数据包一般是由于硬件故障导致比如:传输线路异常、交换机/路由器网卡异常、终端网卡异常等等。客户这里已经排除PC网卡问题,交换机路由器上也无相关告警,优先怀疑是网络线路问题,于是对于PC到交换机的线路进行网线替换,最终再机房机柜跳线那里发现一个机柜的大部分网线都有松动问题,最后将PC跳线都切换一个机柜问题恢复正常。 |