背景:某客户采购我司数百点adesk、EDR、AC、AF,其他厂家交换机,客户核心交换机做了ACL策略。
1、问题现象:桌面云集群内绝大多数虚拟机无法加入域控(westmining.localdomain,IP地址:10.80.60.201和10.80.60.202),虚拟机加入域等30秒左右会报错:加入域"westmining.localdomain”时出现了以下错误:找不到网络路径"。但是有三台虚拟机可以正常加入域,测试了2天发现有2台的虚拟机能够加入域。
报错如下
2、开始以为是个例,因为此前所有模板派生的虚拟机都可以正常加入域,且已经有100多台主机成功加入域控,后续新派生的虚拟机只有2两台可以加入域控(更换多个windows镜像派生,模板基本都能加入域,但是派生虚拟机无法加入域),根据报错信息提示,百度查询解决办法:
https://blog.csdn.net/lairenqing/article/details/128846468
通过以上操作手法和排查思路,但是均未解决问题,把客户侧三台其他厂家交换机、数据经过的四台防火墙、域控服务器等都查了,均无拦截。
3、无奈只能抓包,复现问题的时候抓包。在异常虚拟机所在物理主机后台抓包:
tcpdump -i any host 10.80.70.203 and host 10.80.60. 201 -nne -c 1000
tcpdump -i any host 10.80.70.203 and host 10.80.60. 202 -nne -c 1000
无法加入域控的虚拟机加入域异常的时候在服务器主机上抓的包如下
无法加入域的虚拟机本地抓包如下
可以加入域的虚拟机抓的包如下:
4、但是域控、防火墙、交换机上均没有抓到无法加入域的虚拟机发出的对域控445端口的请求包,所以问题肯定是出在平台上面了,桌面云平台能限制的只有VDC,于是登录VDC查看策略组和分布式防火墙,抓到了元凶老六:分布式防火墙禁用了445端口,但是这个鬼东西不是完全生效的(客户基于安全考虑后续配置的,但是忘记了)
5、写在最后,以后处理问题排查思路很关键。一开始就应该抓包对比,敢于质疑一切,不应该惯性思维。
关于虚拟机模板封装后更新模板,再派生后SID一样的问题,还有分布式防火墙为啥不是100%生效问题也没搞懂,在研究ing...欢迎大佬们指导