本帖最后由 李智浩 于 2025-3-23 13:01 编辑
AICP模型部署案例 一、评估基线环境要求,部署环境准备:标准基线:HCI-680以上最好6.10.0R2,SCP-6.10.2 非标基线:HCI6.0.0R4。需要SCPukey授权,需要市场提借测流程(SCP的紫色硬件key,需要配置usb给到SCP虚拟机后,再通过供应链开出授权) GPU目前支持显卡环境: 安装环境镜像一定需要提前下载: 所需镜像:SCP(vma),SKE(ova),AICP相关环境包,模型安装包,裸金属服务系统安装包,K8S软件安装包 SCP、SKE所需包: 裸金属服务器侧所需包: AICP所需包: 创建Deepseek模型的兼容性安装包: Deepseek模型安装包: 备注: SKE在独立部署需要用OVA包,正常VMA部署的不可使用会有各种报错。 二、客户侧环境网络环境准备:管控面SCP与SKE: 纳管场景(承载在Vmware):2个管理IP 全新部署(承载在HCI):2个管理IP、1个内部通信IP(与管理IP不同网段) 裸金属节点: 管理IP*节点数 业务IP*节点数+1+M(可复用管理IP,+1为SKE纳管裸金属需要预留的集群VIP,M为推理服务的网关IP)
单GPU节点纳管场景: 管理平面IP:SCP、SKE、GPU服务器(三个管理IP) 业务平面IP: GPU服务器、SKE集群VIP、云原生网关(三个业务IP)
三、管控面环境安装部署: 步骤一:SCP,SKE虚拟机导入。 步骤二:SCP管理IP配置并授权,检查SCP授权是否包含SKE容器服务和AICP算力平台 步骤三:SCP开通公共模块服务,开通容器服务 开通容器服务,选择纳管,获取AK,SK 步骤四:在Xshell登录SKE后台进行到SCP的网络连通性测试。测试完成后,进行对接SCP纳管SKE 1.设置SK管理网关 sf/debug/ops-tools network set-config --interface eth0 --ip {管理口IP} --mask {子网掩码} --gateway {网关} 2. 执行注册指令 /sf/debug/ops-tools scp set-link-config --scpip {SCP IP} --port 4430 --ak "{AccessKey}" --sk "{SecretKey}" 注意:如果一直停在waiting for successful registration of service就会超时,此时大概率是SCP的AK,SK因为超时导致SCP上容器服务关闭,需要重启开通此时AK,SK会改变。 超时报错: 需要重新开启容器服务: 3. 注册结果验证 检查kubectl get cm relative-info -oyaml是否将scp信息写入是否正确,出现如下图的SCP管理IP即代表纳管正常 4. 查看服务状态是否正常: kubectl get pod -A
四、GPU裸金属服务器部署+纳管:步骤一:裸金属服务器启动盘制作,系统安装(通过IBMC调整bios安装/KVM里面直接上传iso安装) 步骤二:系统安装,直接再系统盘安装后进行管理网络配置。 备注一定需要先接好网线才能选取网口进行IP配置 步骤三:业务网络配置 1. 先通过xshell连接裸金属服务后台,root/admin** 端口:22345,检查网口配置:agent-ctl list-interfaces | jq 2. 可以看到管理口tags介绍为Management,通过agent-ctl create-bond bond2 --ip 10.1.1.1 --netmask 255.255.255.0 --gateway 10.1.1.254 --members eth2,eth3 --mode LoadBalanceL2 --tags Underlay 上面命令中members eth2,eth3是对应聚合口配置,单独配置一个口也可以配置。可以通过agent-ctl update-bond bond2 --ip 10.1.1.1 --netmask 255.255.255.0 --gateway 10.1.1.254 --members eth2 --mode LoadBalanceL2 --tags Underlay 进行更新。如果配置两个members但是物理接口只接一个口时,在裸金属纳管时会报错,需要返回更新。 步骤四:纳管裸金属 1. AICP授权和服务开通 2.创建裸金属服务器集群,重点需要配置SKE的集群VIP,需要和裸金属服务器刚刚配置的业务IP互通。其余默认配置即可,并且需要上传K8S软件安装包。 单GPU服务器不需要配置工作节点,只需要配置控制节点并勾选允许运行工作负责即可。物理IP填写GPU服务器管理IP。 点击完成即可。 步骤五:本地存储卷LVM配置: 1. 使用xshell或Mobaxterm工具通过SKE的管理IP使用root账号登录SKE后台(运维密码+**)端口22345,可以先看下纳管裸金属的磁盘大小,测试服务器为1.7TB 2. 执行/sf/debug/ops-tools storage , 该命令会例出详细的样例,整个流程均依照参考该样例来进行。 3. 获取执行的集群 id: kubectl get uicluster -A ( 第一步有打印命令, 可直接拷贝) 4. 收集磁盘信息, 命令:/sf/debug/ops-tools storage collect-disk --cluster-id {集群 id} ( 第一步有打印命令, 可直接拷贝, 然后提充第二步查询的集群 id) 5. 如果用集群改了密码,则命令是这样的: /sf/debug/ops-tools storage collect-disk --cluster-id {集群 id} --ssh-passwords '{"{节点名称}": "{节点密码}"}' 6. 修改配置并确认配置, 命令: vi {上一步结果输出的路径} (第三步有提示,可直接拷贝) 重点需要区分yaml文件磁盘的划分,划分依据为: /sf/data/appdata/aicp:存放AICP上传的模型数据,建议划分总容量的60%-70空间 /sf/data/appdata/localdata:提供训练场景的checkpoint、模型分发的暂存空间,纯推理场景建议划分600GB,训推一体场景建议划分总容量的25%-35%空间 /sf/data/appdata/logcenter:存放日志中心的日志数据,建议划分200GB 实际data_vg大小等于下面四个目录的总和,需要将剩余容量给到 /sf/data/appdata/localdata/dragonfly 通过命令/sf/debug/ops-tools storage create-user-cluster-lvm --config {配置文件}创建lvm 步骤六:获取GPU服务器后台账密: 五、AICP平台部署和模型创建:步骤一:上传安装包部署AICP平台 步骤二:创建AICP平台本地存储 步骤三:创建云原生网关,云原生外部网关与业务ip同网段。 步骤四:更新模型和组件兼容性满足deepseek模型导入,不导入的话,直接上传DEEPSEEK的模型会报错。 步骤五:上传DEEPSEEK模型,上传前需要重点检查所有模型子文件不要丢失权重文件。丢失权重文件后可以通过连接GPU服务器后台传入后重启模型服务后即可。丢失权重文件会导致模型应用有问题。 步骤六:创建模型服务,正常根据显卡规划划分。创建完后即可调用模型在在线体验平台中使用。 六、用户测试体验使用指引:在线平台和chatbox客户端使用指引如下,备注:cherrystudio不支持win7 1. 在线体验: 进入后:
开始对话即可: 1. 客户端使用: (1) chatbox客户端安装: 使用chatbox-1.10.5-Setup.exe,正常默认安装即可 安装完成生成chatbox客户端 Chatbox客户端设置: API秘钥设置:见AICP模型服务上的AK/SK信息 API域名填写云原生网关地址 模型选择自定义模型,Deepseek-32B
|