本帖最后由 kuke 于 2020-4-4 11:25 编辑
问题现象:
虚拟机之间访问经常出现访问不通的现象,但是物理机访问虚拟机都是正常的,并且重启一下虚拟机就虚拟机访问就会正常一段时间,过一段时间又会反复出现该问题 排查步骤 1、了解客户环境拓扑如下: 业务交换机,vxlan交换机,存储交换机做的都是堆叠,并且业务,管理,vxlan做的是端口聚合,存储网络做的是单交换机链路聚合模式,并且虚拟机都是直接连接在物理出口的,这样的话,不同vm间的通信就是走的业务口。 备注:即使虚拟机连接到分布式交换机上了,但是分布式交换机直连到物理出口上,这种情况,不同主机上的vm通信也是走的业务口,因为没有NFV或者虚拟路由器的情况下,分布式交换机功能会弱化。 2、检测IP地址是否冲突,比如虚拟机155和158两台主机相互ping不通,操作系统为linux系统,在155上使用arping 命令查看对端158返回的mac地址,并且在158上ifconfig命令查看本机的mac与返回的mac地址一致,排查mac地址冲突的问题 3、查看两台主机的运行位置,将虚拟机迁移到同一主机上进行测试,问题依旧 4、检测两端聚合口的配置是否都是静态聚合(服务器和交换机上)-是 5、在155上ping158,并且在158上抓包,tcpdum -i eth0 icmp -nne -s0 没有收到任何报文,怀疑中间设备拦截,或者转发错误 6、登录业务交换机,查看设备arp表,当聚合口YM8学习到vm158的mac地址的时候,就会出现不通,根据之前的接线表信息,YW8聚合口连接的是第8台服务器,而且158是运行在第9台服务器上的,这是就开始怀疑网线是否接错了,将聚合YW8的一个网口down后,查看到是第9台服务器业务口down,downYW8的另外一个网口是第8台服务器业务口down。根据以上判断,确实是网口接错导致,将网口调整后,业务恢复正常 根本原因: 服务器业务聚合口与业务交换机聚合口线序插错导致虚拟机通信异常 问题总结: 1、该场景出现ping异常的问题,可以有效将交换机一边的网口全部拔掉,测试是否正常,如果正常请检查聚合口插线是否有问题 2、检查是否有ip地址冲突。 |