AICP模型部署案例-HCI600R4+SCP610R2ukey
  

李智浩 308

{{ttag.title}}
本帖最后由 李智浩 于 2025-3-23 13:01 编辑

AICP模型部署案例
一、评估基线环境要求,部署环境准备:
标准基线:HCI-680以上最好6.10.0R2SCP-6.10.2
非标基线:HCI6.0.0R4。需要SCPukey授权,需要市场提借测流程(SCP的紫色硬件key,需要配置usb给到SCP虚拟机后,再通过供应链开出授权)
GPU目前支持显卡环境:
安装环境镜像一定需要提前下载:
所需镜像:SCP(vma),SKE(ova),AICP相关环境包,模型安装包,裸金属服务系统安装包,K8S软件安装包
SCPSKE所需包:
裸金属服务器侧所需包:
AICP所需包:
创建Deepseek模型的兼容性安装包
Deepseek模型安装包:
备注:
SKE在独立部署需要用OVA包,正常VMA部署的不可使用会有各种报错。
二、客户侧环境网络环境准备:
管控面SCPSKE
纳管场景(承载在Vmware):2个管理IP
全新部署(承载在HCI):2个管理IP1个内部通信IP(与管理IP不同网段)
裸金属节点:
管理IP*节点数
业务IP*节点数+1+M(可复用管理IP+1SKE纳管裸金属需要预留的集群VIPM为推理服务的网关IP

GPU节点纳管场景:
管理平面IPSCPSKEGPU服务器(三个管理IP)
业务平面IP:  GPU服务器、SKE集群VIP、云原生网关(三个业务IP


三、管控面环境安装部署:
步骤一:SCPSKE虚拟机导入。
步骤二:SCP管理IP配置并授权,检查SCP授权是否包含SKE容器服务和AICP算力平台
步骤三:SCP开通公共模块服务,开通容器服务
开通容器服务,选择纳管,获取AKSK
步骤四:在Xshell登录SKE后台进行到SCP的网络连通性测试。测试完成后,进行对接SCP纳管SKE
1.设置SK管理网关
sf/debug/ops-tools network set-config --interface eth0 --ip {管理口IP} --mask {子网掩码} --gateway {网关}
2. 执行注册指令
/sf/debug/ops-tools scp set-link-config --scpip {SCP IP} --port 4430 --ak "{AccessKey}" --sk "{SecretKey}"
注意:如果一直停在waiting for successful registration of service就会超时,此时大概率是SCPAKSK因为超时导致SCP上容器服务关闭,需要重启开通此时AKSK会改变。
超时报错:
需要重新开启容器服务:
3. 注册结果验证
检查kubectl get cm relative-info -oyaml是否将scp信息写入是否正确,出现如下图的SCP管理IP即代表纳管正常
4. 查看服务状态是否正常: kubectl get pod -A

四、GPU裸金属服务器部署+纳管:
步骤一:裸金属服务器启动盘制作,系统安装(通过IBMC调整bios安装/KVM里面直接上传iso安装)
步骤二:系统安装,直接再系统盘安装后进行管理网络配置。
备注一定需要先接好网线才能选取网口进行IP配置
步骤三:业务网络配置
1. 先通过xshell连接裸金属服务后台,root/admin**  端口:22345检查网口配置:agent-ctl list-interfaces | jq
2. 可以看到管理口tags介绍为Management,通过agent-ctl create-bond bond2 --ip 10.1.1.1 --netmask 255.255.255.0 --gateway 10.1.1.254 --members eth2,eth3 --mode LoadBalanceL2 --tags Underlay  
上面命令中members eth2eth3是对应聚合口配置,单独配置一个口也可以配置。可以通过agent-ctl update-bond bond2 --ip 10.1.1.1 --netmask 255.255.255.0 --gateway 10.1.1.254 --members eth2 --mode LoadBalanceL2 --tags Underlay 进行更新。如果配置两个members但是物理接口只接一个口时,在裸金属纳管时会报错,需要返回更新。
步骤四:纳管裸金属
1. AICP授权和服务开通
2.创建裸金属服务器集群,重点需要配置SKE的集群VIP,需要和裸金属服务器刚刚配置的业务IP互通。其余默认配置即可,并且需要上传K8S软件安装包。
GPU服务器不需要配置工作节点,只需要配置控制节点并勾选允许运行工作负责即可。物理IP填写GPU服务器管理IP
点击完成即可。
步骤五:本地存储卷LVM配置:
1. 使用xshellMobaxterm工具通过SKE的管理IP使用root账号登录SKE后台(运维密码+**)端口22345,可以先看下纳管裸金属的磁盘大小,测试服务器为1.7TB
2. 执行/sf/debug/ops-tools storage , 该命令会例出详细的样例,整个流程均依照参考该样例来进行。
3. 获取执行的集群 id kubectl get uicluster -A 第一步有打印命令, 可直接拷贝)
4. 收集磁盘信息, 命令:/sf/debug/ops-tools storage collect-disk --cluster-id {集群 id} 第一步有打印命令, 可直接拷贝, 然后提充第二步查询的集群 id
5. 如果用集群改了密码,则命令是这样的: /sf/debug/ops-tools storage collect-disk --cluster-id {集群 id}  --ssh-passwords '{"{节点名称}": "{节点密码}"}'
6. 修改配置并确认配置, 命令: vi {上一步结果输出的路径} (第三步有提示,可直接拷贝)
重点需要区分yaml文件磁盘的划分,划分依据为:
/sf/data/appdata/aicp:存放AICP上传的模型数据,建议划分总容量的60%-70空间
/sf/data/appdata/localdata:提供训练场景的checkpoint、模型分发的暂存空间,纯推理场景建议划分600GB,训推一体场景建议划分总容量的25%-35%空间
/sf/data/appdata/logcenter:存放日志中心的日志数据,建议划分200GB
实际data_vg大小等于下面四个目录的总和,需要将剩余容量给到 /sf/data/appdata/localdata/dragonfly
通过命令/sf/debug/ops-tools storage create-user-cluster-lvm  --config {配置文件}创建lvm
步骤六:获取GPU服务器后台账密:
五、AICP平台部署和模型创建:
步骤一:上传安装包部署AICP平台
步骤二:创建AICP平台本地存储
步骤三:创建云原生网关,云原生外部网关与业务ip同网段。
步骤四:更新模型和组件兼容性满足deepseek模型导入,不导入的话,直接上传DEEPSEEK的模型会报错。
步骤五:上传DEEPSEEK模型,上传前需要重点检查所有模型子文件不要丢失权重文件。丢失权重文件后可以通过连接GPU服务器后台传入后重启模型服务后即可。丢失权重文件会导致模型应用有问题。
步骤六:创建模型服务,正常根据显卡规划划分。创建完后即可调用模型在在线体验平台中使用。
六、用户测试体验使用指引:
在线平台和chatbox客户端使用指引如下,备注:cherrystudio不支持win7
AICP-Deepseek
模型用户使用指南
1. 在线体验:
登录在线平台:https://scpip:4430
进入后:

开始对话即可:
1. 客户端使用:
(1) chatbox客户端安装:
使用chatbox-1.10.5-Setup.exe,正常默认安装即可
安装完成生成chatbox客户端
Chatbox客户端设置:
API秘钥设置:AICP模型服务上的AK/SK信息
API域名填写云原生网关地址
模型选择自定义模型,Deepseek-32B

打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

发表新帖
热门标签
全部标签>
【 社区to talk】
新版本体验
干货满满
每日一问
技术咨询
功能体验
纪元平台
GIF动图学习
产品连连看
安全效果
标准化排查
自助服务平台操作指引
社区帮助指南
每周精选
社区新周刊
每日一记
技术顾问
秒懂零信任
云化安全能力
信服课堂视频
畅聊IT
技术笔记
安装部署配置
2023技术争霸赛专题
高手请过招
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
运维工具
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
技术晨报
技术盲盒
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
故障案例库

本版版主

13
1
6

发帖

粉丝

关注

28
7
0

发帖

粉丝

关注

本版热帖

本版达人