记一次AICP部署(8节点4090D裸金属服务器+三节点超融合管理面)
  

Zephyrღ  4293

{{ttag.title}}
本帖最后由 Zephyrღ  于 2025-3-2 15:21 编辑

提前准备:
资源:
1、测试授权GPU和CPU数量一定往高的填!!!提前确定好GPU核心数和CPU核心数,避免浪费时间。
2、确保至少一个万兆网卡,保证测试质量。
3、做本地存储裸金属服务器所有磁盘一定要做raid,不然识别不到无法做本地集群。
4、模型用chatbox调用,一定要保证自定义模型名称填写的和模型发布里一样!
5、安装裸金属服务器U盘刻录可能会失败,可以尝试软光驱挂载。

最佳实践的拓扑:
本次拓扑:
1)裸金属GPU服务器使用本地磁盘组本地存储
2)HCI上搭建SCP和SKE纳管裸金属服务器
3)通过SKE上的负载均衡器LB发布AI模型业务
4)VDI上的虚拟机通过chatbox访问AICP承载的大模型

1、基础管理平台初始化:
HCI集群:
已经提前准备好了
SCP:
导入SCP镜像
配置网络10.11.12.211/24网关254
导入授权&纳管HCI
创建资源池
SKE:
导入SKE镜像
在SCP上给SKE授权
AICP:
导入安装包

2、GPU资源池初始化:准备物理主机服务器:
物理主机服务器iso安装:
物理主机服务器网络配置:以管理和业务复用为例,全部绑定在bond1上
agent-ctl update-bond bond1 --ip xx.xx.xx.xx --netmask 255.255.255.0 --gateway xx.xx.xx.xx --members eth2,eth3 --mode LoadBalanceL2 --tags Management,Underlay
[size=18.6667px]
物理主机存储初始化:
SKE创建GPU k8s集群纳管服务器:
上传k8s补丁包
3、AICP平台存储初始化:
本地存储和平台初始化:
登录SKE容器后台输入命令,裸金属密码在纳管后变为随机
第三步进入编辑yaml,其他的不用修改,主要修改lvm_template里面的内容。
1)由于模板默认6T(expect_min_size=5.98T),如果装的磁盘是3T,需要等比例缩小百分之五十(expect_min_size=3T)
2)同时下面的所有lvs都要等比例缩小
3)同时要确定devs下面的值不为空(有磁盘)
4、用户算力资源池初始化:
在AICP配置平台存储
在AICP配置添加算力池
根据显卡的型号上传推理、训练、压缩等功能镜像
部署日志服务器


5、上传AICP模型的镜像:
官网下载镜像(可以使用IDM)
解压模型镜像
上传模型镜像
6、发布推理模型
前置条件
  • 在容器服务中创建负载均衡器,详情见【云原生网关配置】>【创建负载均衡器】章节

  • 配置平台存储,详情见【平台存储配置】章节

  • 创建算力池,详情见【算力池管理】章节

  • 创建云原生网关实例,详情见【云原生网关配置】>【创建网关】章节

  • 授权GPU
  • 上传模型



配置训练任务
发布推理任务
1、安装chatbox
2、配置chatbox

打赏鼓励作者,期待更多好文!

打赏
21人已打赏

飞翔的苹果 发表于 2025-3-3 12:57
  
感谢分享,学习一下
S_李军 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
浮云终日行 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
sangfor_s 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
sangfor_双 发表于 2025-3-4 09:56
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
秦冰 发表于 2025-3-4 09:57
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
肖振宙 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
杨振双 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
情亲见君意 发表于 2025-3-4 09:58
  
逐句地看完这个帖子以后,我的心久久不能平静,震撼啊!为什么会有如此好的帖子!我纵横社区多年,自以为再也不会有任何帖子能打动我,没想到今天看到了如此精妙绝伦的这样一篇帖子。
发表新帖
热门标签
全部标签>
每日一问
新版本体验
【 社区to talk】
纪元平台
安全效果
功能体验
标准化排查
技术咨询
产品连连看
秒懂零信任
社区新周刊
高手请过招
运维工具
自助服务平台操作指引
GIF动图学习
技术圆桌
日志审计
资源访问
西北区每日一问
云化安全能力
信服课堂视频
专家问答
安装部署配置
项目案例
社区帮助指南
技术晨报
文档捉虫活动
每周精选
畅聊IT
答题自测
技术笔记
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
问题分析处理
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
干货满满
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
2023技术争霸赛专题
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
技术盲盒
山东区技术晨报
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
故障案例库

本版热帖

本版达人