一、问题描述
早上客户打电话说SCP云计算平台突然WEB页面登录不上了,但是HCI集群WEB界面是可以登录的。让帮忙查看一下是什么原因照成的。
二、告警信息
SCP云计算平台WEB界面登录不上
SCP控制后台界面是显示进入linux界面状态。
而不是正常的云平台WEB登录平台界面。
三、处理过程
在机房控制台计算机telnet 10.99.99.99 4430 连接端口失败;超融合里没安AF虚拟防火墙,操作系统防火墙是关闭状态。在超融合的虚拟机操作系统telnet 4430端口也是连接失败状态。ping 云计算平台IP 是可以PING通的。询问客户是否对SCP进行了什么操作,客户说没有进行任何违规操作。
换其他浏览器也是不能正常访问云计算平台web界面。
四、根因
问题的原因是SCP后台采用K3S容器架构,K3S容器证书过期,照成SCP云计算中心平台WEB界面不能正常登录。
五、解决方案
1.进入SCP后台,用户root,输入密码
2.#netstat -anpl | grep 443 用于查询与端口 443相关的网络连接和进程信息,及K3S进程
3.# Kubectl delete -f /boot/firmware/current/package/deploy_yamls ,根据指定路径下的 YAML 配置,删除 Kubernetes 集群中对应的资源
4.重启名为 deploy_container.service 的容器部署服务。#systemctl restart deploy_container.service
访问SCP WEB界面仍然不好使
5.在 /sf/data/locatl/目录下创建或更新 test.sh 文件 touch /sf/data/locatl/test.sh
1)删除文件 / 目录:递归删除 /var/lib/container/kube/ 下的 server、data、config.yaml,以及 /var/lib/container/kube/agent/ 下的 crt、key、config、pod-manifest;
2)重启服务:重启 deploy_container.service 系统服务;
3)生成证书:调用 gen_k8s_cert.sh 脚本,生成 Kubernetes 证书(有效期 1990-01-01 到 2122-01-01,输出到 /var/lib/container/kube/server/tls )
6.#chmod +x /sf/data/local/test.sh 为 /sf/data/local/test.sh 脚本文件添加使该脚本能被运行
7.#cd /sf/data/local 进入/sf/data/local目录下
#bash test.sh 在/sf/data/local目录下执行目录下的test.sh脚本
8.#reboot 重启系统
9.云平台正在启动
10.云平台正常启动
11.正常恢复登录SCP云计算平台,解决web页面登录问题
六、建议与总结
1.云计算平台使用K3S容器,由于K3S容器证书过期,导致云计算中心平台WEB界面登录不正常。重新授权K3S证书后解决问题。当时授权只是一年的授权。
2.求助400是解决此办法的唯一方法,后台问题还是需要400去解决。非常感谢400兄弟的帮助。