记一次AICP部署(8节点4090D裸金属服务器+三节点超融合管理面)
  

Zephyrღ  196691人觉得有帮助

{{ttag.title}}
本帖最后由 Zephyrღ  于 2025-3-2 15:21 编辑

提前准备:
资源:
1、测试授权GPU和CPU数量一定往高的填!!!提前确定好GPU核心数和CPU核心数,避免浪费时间。
2、确保至少一个万兆网卡,保证测试质量。
3、做本地存储裸金属服务器所有磁盘一定要做raid,不然识别不到无法做本地集群。
4、模型用chatbox调用,一定要保证自定义模型名称填写的和模型发布里一样!
5、安装裸金属服务器U盘刻录可能会失败,可以尝试软光驱挂载。

最佳实践的拓扑:
本次拓扑:
1)裸金属GPU服务器使用本地磁盘组本地存储
2)HCI上搭建SCP和SKE纳管裸金属服务器
3)通过SKE上的负载均衡器LB发布AI模型业务
4)VDI上的虚拟机通过chatbox访问AICP承载的大模型

1、基础管理平台初始化:
HCI集群:
已经提前准备好了
SCP:
导入SCP镜像
配置网络10.11.12.211/24网关254
导入授权&纳管HCI
创建资源池
SKE:
导入SKE镜像
在SCP上给SKE授权
AICP:
导入安装包

2、GPU资源池初始化:准备物理主机服务器:
物理主机服务器iso安装:
物理主机服务器网络配置:以管理和业务复用为例,全部绑定在bond1上
agent-ctl update-bond bond1 --ip xx.xx.xx.xx --netmask 255.255.255.0 --gateway xx.xx.xx.xx --members eth2,eth3 --mode LoadBalanceL2 --tags Management,Underlay
[size=18.6667px]
物理主机存储初始化:
SKE创建GPU k8s集群纳管服务器:
上传k8s补丁包
3、AICP平台存储初始化:
本地存储和平台初始化:
登录SKE容器后台输入命令,裸金属密码在纳管后变为随机
第三步进入编辑yaml,其他的不用修改,主要修改lvm_template里面的内容。
1)由于模板默认6T(expect_min_size=5.98T),如果装的磁盘是3T,需要等比例缩小百分之五十(expect_min_size=3T)
2)同时下面的所有lvs都要等比例缩小
3)同时要确定devs下面的值不为空(有磁盘)
4、用户算力资源池初始化:
在AICP配置平台存储
在AICP配置添加算力池
根据显卡的型号上传推理、训练、压缩等功能镜像
部署日志服务器


5、上传AICP模型的镜像:
官网下载镜像(可以使用IDM)
解压模型镜像
上传模型镜像
6、发布推理模型
前置条件
  • 在容器服务中创建负载均衡器,详情见【云原生网关配置】>【创建负载均衡器】章节

  • 配置平台存储,详情见【平台存储配置】章节

  • 创建算力池,详情见【算力池管理】章节

  • 创建云原生网关实例,详情见【云原生网关配置】>【创建网关】章节

  • 授权GPU
  • 上传模型



配置训练任务
发布推理任务
1、安装chatbox
2、配置chatbox

打赏鼓励作者,期待更多好文!

打赏
22人已打赏

飞翔的苹果 发表于 2025-3-3 12:57
  
感谢分享,学习一下
S_李军 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
浮云终日行 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
sangfor_s 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
sangfor_双 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
秦冰 发表于 2025-3-4 09:57
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
肖振宙 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
杨振双 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
情亲见君意 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
发表新帖
热门标签
全部标签>
高手请过招
每日一问
纪元平台
新版本体验
功能体验
GIF动图学习
【 社区to talk】
产品连连看
标准化排查
安全效果
信服课堂视频
平台使用
社区新周刊
答题自测
畅聊IT
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版热帖

本版达人