本帖最后由 85039王毅波 于 2025-5-25 17:38 编辑
AICP部署DS.pdf
(4.7 MB, 下载次数: 6, 售价: 10 S豆)
AICP部署文档.pdf
(8.1 MB, 下载次数: 3, 售价: 10 S豆)
写在前面: 一、AICP部署一定提前至少1天先看下交付旅程和社区的培训视频和资料(包含可能遇到的报错),看完视频和社区资料大约得3小时左右---第一次弄这个环节确实需要1天。
二、一定跟售前明确清楚客户测试需求:推理还是训练,涉及哪些模型(一个模型基本在80G左右),DS-14B,DS-32B,Qwen 14B和Qwen 32B是四个不同的模型,四个模型一起大概要350G左右,这个明确清楚必须提前下载。AICP1.0.0和AICP2.0.0的能力是不一样的,一定提前跟总部确认,有个企微在线文档持续更新的。
三、上传模型操作:导入模型非常耗费时间且容易受客户侧网络影响,GPU服务器直接插存放模型的U盘/硬盘,导入模型选择对应路径即可。
五、常见问题:组建lvm说明
六、SKE纳管裸金属服务器以后,裸金属服务器默认密码就变了,获取GPU密码
1、到ske管理后台执行命令行,查看clusterName和租户ID
kubectl get uiclusters -A
2、执行命令查看节点的密码 /sf/debug/ops-tools cluster --clusterName {clusterName} --tenantID {tenantID}
![]()
七、铭记2条命令(去掉大括号创建LVM其中的一条命令):
模板:/sf/debug/ops-tools storage collect-disk --cluster-id {集群 id} --ssh-passwords '{"{节点名称}": "{节点密码}"}'
本次实际使用: /sf/debug/ops-tools storage collect-disk --cluster-id 70409e26-1c1c-4146-b1d3-baa06dac4ddb --ssh-passwords '{"ycswjwai-1": "d4T/r6V=t1G%v2E,b4O<c7J)"}'
SCP纳管SKE,容器打死不改IP:/sf/debug/ops-tools scp set-link-config --scpip 172.16.1.79 --port 4430 --ak "164bf1c6ce3c4fbcbd98a6aabc3688f0" --sk" --ef8df50da9c54cb48e950a389a623ee5"
八、如果是一台HCI服务器,一台GPU服务器,规划地址至少要8个IP。 HCI主机1个、HCI集群1个、SCP一个、云原生网关/负载均衡器1个、SKE1个、GPU服务器1个、配置K8S的时候还需要1个。还有一个忘记了,最后是用了8个
九、创建K8S集群时候,一定注意输入节点名称和数字,节点数量选择1节点,物理主机IP填写裸金属集群的IP,取消工作节点。 十一、chatbox客户端信息填写,AICP1.0.0对于模型名称不做校验,AICP2.0.0要求模型名称必须和AICP里面的自定义模型名称保持一致,会做校验的。
十二、裸金属服务器刻盘建议用refus即可(附件有),其他刻盘工具可能会有问题,导致裸金属服务器安装系统异常等 十三、AIPAAS强行修改模型兼容,进入AIPAAS虚拟机后台,复制正常模型的代码(全部检查一遍)。 "Qwen3_30B":{
"bos_token_id": 151643,
"hidden_size": 2048,
"initializer_range": 0.02,
"num_attention_heads": 32,
"num_hidden_layers": 48,
"max_position_embeddings": 40960,
"model_type": "qwen3",
"required_files": [
"config.json",
"generation_config.json",
"tokenizer_config.json",
"tokenizer.json"
],
"configs": {
"inferFramework": [
"vllm"
],
"supportQuantizationMethod": [
"gptq"
]
}
}, 十四、写在最后:整个SKE部署过程中一定不要断电或者重启,否则就得重来了,噶了修复比重新部署还慢,还得排障。GPU服务器推荐系统盘做RAID,数据盘用SSD,体验很哇塞。
提前看了这些如果遇到了按照整个处理就行,其他问题联系总部专家支撑。
OVER~ |