背景
客户在2022年末的时候部署了新版的680超融合,一共两个集群且接入了SCP平台,部署超融合之前就有增加显卡的计划,后来因为疫情原因,一直到前几天才把显卡给部署上去。但是部署完授权服务器之后,给某一台虚拟机进行授权的时候发现,虚拟机可以识别到显卡,但是一直授权不成功。 问题排查 1、确认虚拟机时间和授权服务器时间是否同步。 2、确认虚拟机驱动是否正常。这个可以查看虚拟机的系统版本,然后到社区查看是否下载对应版本的驱动。 3、尝试重装显卡驱动。 4、尝试重新导入tok文件,重启NVDisplay服务。 5、检查NVDia授权服务器本地DLS的授权服务配置是否正常。 6、检查虚拟机到授权服务器的网络是否正常,8080端口是否能正常访问。 我这边当时踩了一个坑,我是到最后才检查了时间问题,所以在这我把检查时间的步骤写在了第一个。在社区的指导文档里面导入授权服务器之后,直接进行下一步操作了,没有检查时间的步骤或提示。 在这个第三步开始之前,可以用date相关命令查看授权服务器的时间是否正常。 小结 其实我这里还遇到一个问题就是,在增加显卡之前已经部署的虚拟机不能添加显卡,只有在第一次部署虚拟机的时候添加上显卡,后续才可以进行正常的增删操作。之前已经部署的虚拟机是无法进行显卡的添加,这个问题和400沟通之后,解决的办法是进行打补丁,打完补丁之后所有的虚拟机才能进行正常的增删显卡。(打补丁不会影响后续的升级)如果大家有遇到相关问题的可以和400确认是否是相同的原因。 |