本帖最后由 Zephyrღ 于 2025-3-2 15:21 编辑
提前准备: 资源:1、测试授权GPU和CPU数量一定往高的填!!!提前确定好GPU核心数和CPU核心数,避免浪费时间。 2、确保至少一个万兆网卡,保证测试质量。 3、做本地存储裸金属服务器所有磁盘一定要做raid,不然识别不到无法做本地集群。 4、模型用chatbox调用,一定要保证自定义模型名称填写的和模型发布里一样! 5、安装裸金属服务器U盘刻录可能会失败,可以尝试软光驱挂载。 最佳实践的拓扑: 本次拓扑:
1)裸金属GPU服务器使用本地磁盘组本地存储 2)HCI上搭建SCP和SKE纳管裸金属服务器 3)通过SKE上的负载均衡器LB发布AI模型业务 4)VDI上的虚拟机通过chatbox访问AICP承载的大模型
1、基础管理平台初始化: HCI集群:已经提前准备好了 SCP:导入SCP镜像 配置网络10.11.12.211/24网关254 导入授权&纳管HCI 创建资源池 SKE:导入SKE镜像 在SCP上给SKE授权 AICP:导入安装包
2、GPU资源池初始化:准备物理主机服务器:物理主机服务器iso安装: 物理主机服务器网络配置:以管理和业务复用为例,全部绑定在bond1上 agent-ctl update-bond bond1 --ip xx.xx.xx.xx --netmask 255.255.255.0 --gateway xx.xx.xx.xx --members eth2,eth3 --mode LoadBalanceL2 --tags Management,Underlay
[size=18.6667px]
![]() 物理主机存储初始化: SKE创建GPU k8s集群纳管服务器: 上传k8s补丁包 3、AICP平台存储初始化: 本地存储和平台初始化: 登录SKE容器后台输入命令,裸金属密码在纳管后变为随机 第三步进入编辑yaml,其他的不用修改,主要修改lvm_template里面的内容。 1)由于模板默认6T(expect_min_size=5.98T),如果装的磁盘是3T,需要等比例缩小百分之五十(expect_min_size=3T) 2)同时下面的所有lvs都要等比例缩小 3)同时要确定devs下面的值不为空(有磁盘) 4、用户算力资源池初始化:在AICP配置平台存储 在AICP配置添加算力池 根据显卡的型号上传推理、训练、压缩等功能镜像 部署日志服务器
5、上传AICP模型的镜像:官网下载镜像(可以使用IDM) 解压模型镜像 上传模型镜像 6、发布推理模型前置条件 配置训练任务 发布推理任务 1、安装chatbox 2、配置chatbox |