问题现象
1、HCI集群,主控节点离线,虚拟机未HA,管理口可以ping通,且集群内所有主机都可以互通
处理过程
1,确认集群之间互相ping是可以通讯的
2,切换主控制器,发现还是异常
3,因为主控制器还是正常的,内部还有虚拟机运行,并没有HA
4,客户表示故障的前一天挂载了FC存储,网络并无变更,网口并没有修改配置 5、查看日志空间被 kernel 日志占满; 6、查看 kernel 日志,FC 存储一直在刷日志;尝试把 kernel 日志 mv 到其他路径测试还是异常;
7,后台查看/run/shm空间也被打满。corosync服务在日志分区满了的时候会一直请求, 请求的文件会在/run/shm共享目录里边存放,多次requeset请求的文件未被清除以至于共享目录满了,导致集群同步服务异常后主机离线,将之前请求的残留文件清理掉后主机恢复在线。
问题定位原因 corosync 服务在日志分区满了的时候会一直请求,请求的文件会在/run/shm共享目录里边存放,多次 requeset 请求的文件未被清除以至于共享目录满了,导致集群同步服务异常后主机离线。
|