本帖最后由 李会斌 于 2023-6-28 09:27 编辑
问题现象:
HCI平台告警显示:主机业务口存在错包。
排查思路: (1)更改hci主机转发消耗cpu核数为2G,网络转发消耗的内存为20000以上,观察一段时间后发现还是有错包出现,并查看错包时间点主机业务口网络流量是否很大发现并没有多大:
(2)登录HCI底层查看记录日志,发现网口本身没有其他的异常错误包,crc没有任何错误,只有missed的包。 备注:后台无法记录missed包具体内容,只能看到记录数值。 670后可以看看:
/sf/log/today/vn/(vn-manager-servie、vn-node-agent)
/sf/log/today/kernel.log
/sf/log/today/dataplane.log
(3)查看告警前后的网卡的drop值 (4)查看日志 两分钟左右达到了五万多包 (5)结合上诉现象总结: HCI集群中部分主机的业务口会不定时(基本以天为单位)提示有错误包 当前排查: 1、检查主机的网口没有error包,但是有Missed的包,检查时未见增长 2、本身物理网口上没有异常,已经更换过网线了 3、通过后台日志记载两分钟左右单个业务口有五万多包经过 5、客户HCI上业务比较重要,后台无法部署持续抓包脚本 6、HCI网口本身纯转发,需要协助抓包判断下,可以参考一下第四点的案例。
(6)通过给业务信锐交换机镜像抓取流量,查看hci平台告警时网络数据流。 1、信锐交换机配置镜像口 2、通过wireshark实时抓取流量,查看hci平台出现错包告警时的日志,查看众多小包发现是IPV6探测。
邻居探观是ipv6网络中的一息类型,用于获现相节点的MAC地、当一节点需要和另-个节点通信时,它会发送居深测消息以请求目标节点的MAC北址。邻居探测消息使用ICMP 6协议,在IPV6网络中使用多播地址进行传输,发送居探测消息的节点会在目标节点回复时获取到目标节点的MA地址,并将其存在邻居表中,以便后续通信使用。这种机制有助于实现IPv6网络中的邻居发现和地址解析,确保节点能够正确地与其他节点进行通信。
(7)协调客户根据mac:74:78:27:4b:ce:bc查找设备,因客户网络环境没有找到这台设备。
(8)故障原因: HCI的错误包的告警基本可以明确了 发现是大量小包,几分钟内几万个小包导致hci测网卡瞬时收到大量包,被网口丢弃,平台硬件监控指标发现异常,触发告警。
(9)解决办法:
1、通过交换机查看这个mac是哪里学习到的。 2、通过交换机进行封堵mac。 3、因为目前方案是治标不治本,还是需要客户找到最终产生杂包的设备进行查看。 |