西北区某客户AICP部署DS14B/32B&AIPAAS测试总结
  

85039王毅波 87321人觉得有帮助

{{ttag.title}}
本帖最后由 85039王毅波 于 2025-5-25 17:38 编辑

AICP部署DS.pdf (4.7 MB, 下载次数: 6, 售价: 10 S豆)

AICP部署文档.pdf (8.1 MB, 下载次数: 3, 售价: 10 S豆)

       写在前面:
        一、AICP部署一定提前至少1天先看下交付旅程和社区的培训视频和资料(包含可能遇到的报错),看完视频和社区资料大约得3小时左右---第一次弄这个环节确实需要1天。

        二、一定跟售前明确清楚客户测试需求:推理还是训练,涉及哪些模型(一个模型基本在80G左右),DS-14B,DS-32B,Qwen 14B和Qwen 32B是四个不同的模型,四个模型一起大概要350G左右,这个明确清楚必须提前下载。AICP1.0.0和AICP2.0.0的能力是不一样的,一定提前跟总部确认,有个企微在线文档持续更新的。
魔塔社区下载对应所需模型:https://modelscope.cn/models/Qwen/Qwen3-14B

        三、上传模型操作:导入模型非常耗费时间且容易受客户侧网络影响,GPU服务器直接插存放模型的U盘/硬盘,导入模型选择对应路径即可。

        四、遇到异常问题社区帖子基本都能解决,创建LVM出错的话记得就登录裸金属服务器的后台(
SKE纳管裸金属服务器以后,裸金属服务器默认密码就变了,获取GPU密码,见第六点
,删除重建LVM即可。   https://support.sangfor.com.cn/p ... ry_id=325610&type=1



         五、常见问题:组建lvm说明

         六、SKE纳管裸金属服务器以后,裸金属服务器默认密码就变了,获取GPU密码

1、到ske管理后台执行命令行,查看clusterName和租户ID

kubectl get uiclusters -A

  

2、执行命令查看节点的密码

/sf/debug/ops-tools cluster --clusterName {clusterName} --tenantID {tenantID}


             七、铭记2条命令(去掉大括号创建LVM其中的一条命令):


模板:/sf/debug/ops-tools storage collect-disk --cluster-id {集群 id} --ssh-passwords '{"{节点名称}": "{节点密码}"}'


本次实际使用: /sf/debug/ops-tools storage collect-disk  --cluster-id  70409e26-1c1c-4146-b1d3-baa06dac4ddb  --ssh-passwords '{"ycswjwai-1":  "d4T/r6V=t1G%v2E,b4O<c7J)"}'

SCP纳管SKE,容器打死不改IP:/sf/debug/ops-tools scp set-link-config  --scpip 172.16.1.79 --port 4430   --ak "164bf1c6ce3c4fbcbd98a6aabc3688f0"    --sk" --ef8df50da9c54cb48e950a389a623ee5"


            八、如果是一台HCI服务器,一台GPU服务器,规划地址至少要8个IP。
HCI主机1个、HCI集群1个、SCP一个、云原生网关/负载均衡器1个、SKE1个、GPU服务器1个、配置K8S的时候还需要1个。还有一个忘记了,最后是用了8个

          九、创建K8S集群时候,一定注意输入节点名称和数字,节点数量选择1节点,物理主机IP填写裸金属集群的IP,取消工作节点。
           十、日志中心pod异常,重开还有告警(关闭告警策略后还是告警,需要清楚历史数据),旧数据用研发给的脚本清理即可。https://docs.atrust.sangfor.com/ ... on?pageId=427568752 第16了(研发有权限,代码不对外)
           十一、chatbox客户端信息填写,AICP1.0.0对于模型名称不做校验,AICP2.0.0要求模型名称必须和AICP里面的自定义模型名称保持一致,会做校验的。


          十二、裸金属服务器刻盘建议用refus即可(附件有),其他刻盘工具可能会有问题,导致裸金属服务器安装系统异常等
十三、AIPAAS强行修改模型兼容,进入AIPAAS虚拟机后台,复制正常模型的代码(全部检查一遍)。
"Qwen3_30B":{
            "bos_token_id": 151643,
            "hidden_size": 2048,
            "initializer_range": 0.02,
            "num_attention_heads": 32,
            "num_hidden_layers": 48,
            "max_position_embeddings": 40960,
            "model_type": "qwen3",
            "required_files": [
                "config.json",
                "generation_config.json",
                "tokenizer_config.json",
                "tokenizer.json"
            ],
            "configs": {
                "inferFramework": [
                    "vllm"
                ],
                "supportQuantizationMethod": [
                    "gptq"
                ]
            }
        },
十四、写在最后:整个SKE部署过程中一定不要断电或者重启,否则就得重来了,噶了修复比重新部署还慢,还得排障。GPU服务器推荐系统盘做RAID,数据盘用SSD,体验很哇塞。

提前看了这些如果遇到了按照整个处理就行,其他问题联系总部专家支撑。


OVER~

chatbox.zip

14.92 MB, 下载次数: 0

售价: 20 S豆  [记录]  [购买]

安卓CHATBOS客户端

Chatbox-1.10.7.zip

99.77 MB, 下载次数: 0

售价: 20 S豆  [记录]  [购买]

M系列芯片

Chatbox-1.10.7-arm64.zip

94.15 MB, 下载次数: 0

售价: 20 S豆  [记录]  [购买]

arm的CHATBOX

Chatbox-1.10.7-Setup.zip

146.92 MB, 下载次数: 0

售价: 20 S豆  [记录]  [购买]

英特尔芯片的

refus软件.zip

1.29 MB, 下载次数: 0

售价: 20 S豆  [记录]  [购买]

裸金属服务器刻盘工具

打赏鼓励作者,期待更多好文!

打赏
13人已打赏

新手138949 发表于 2025-4-28 22:04
  
为什么现在这么好的帖子都没有评论的呢
沧海一杯水 发表于 2025-5-1 10:17
  
用心学习,感谢指教。。。。。。。。。。。。。
新手378833 发表于 2025-5-4 06:33
  
用心学习,感谢指教。。。。。。。。。
新手716814 发表于 2025-5-4 06:34
  
用心学习,感谢指教。。。。。。。。。
新手626351 发表于 2025-5-4 06:36
  
用心学习,感谢指教。。。。。。。。。
Find52 发表于 2025-5-9 12:39
  
用心学习,感谢指教。。。。。。。。。。。。。
新手378833 发表于 2025-5-13 08:32
  
用心学习,感谢指教。。。。。。。。。。。。。
新手378833 发表于 2025-5-22 08:58
  

用心学习,感谢指教。。。。。。。。。
新手716814 发表于 2025-5-22 09:17
  
为什么现在这么好的帖子都没有评论的呢
发表新帖
热门标签
全部标签>
新版本体验
每日一问
标准化排查
GIF动图学习
信服课堂视频
产品连连看
纪元平台
安全效果
平台使用
社区新周刊
功能体验
答题自测
技术笔记
网络基础知识
高手请过招
【 社区to talk】
云化安全能力
专家问答
安装部署配置
上网策略
畅聊IT
技术圆桌
在线直播
MVP
升级
安全攻防
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

53
18
0

发帖

粉丝

关注

110
30
2

发帖

粉丝

关注

6
2
0

发帖

粉丝

关注

本版达人