本帖最后由 Bzxll 于 2025-2-24 16:53 编辑
前情提示:此文章为测试分享案例,并非官方推荐部署方式,推荐部署详细请咨询深信服AICP专家。
【环境】各个平台版本:
虚拟化平台VM 6.7
SCP 6.10.2
SKE容器 -2.0.0
AICP平台 -1.1.0
GPU服务器(裸金属服务器) -v1.26.15
Deepseek-32B-int8(两张4090共48GB显存,只能跑起来INT8量化版或14B版本)
【环境】GPU裸金属服务器配置:
1、英伟达4090-24GB *2张
2、内存256GB
3、一台服务器
4、4块1.7TB的SSD固态(两块raid1作为系统盘,两块作为LVM存储)
实测下来存储有点低。
【DeepSeek下载地址】
DeepSeek官方Hugging Face仓库(国内访问不到):https://huggingface.co/deepseek-ai
网上说的deepseek满血版本为617B模型,未量化版本,需要大概860GB显存。
DeepSeek量化版本(非官方):https://modelscope.cn/collection ... till-8b016d8505df4f
【部署准备-软件】
【部署准备-IP】
管控面SCP与SKE:
SCP-1个管理IP
SKE容器-2个IP
AICP-1个IP
Api接口IP-1个
单台裸金属节点-管理业务复用-1个IP
【部署流程】
1、 在VM上部署SCP、SKE容器和裸金属服务器,按照官方手册导入镜像部署,很简单,不过多介绍。
温馨提示:VM上部署SCP会有授权导入的问题,推荐还是直接在HCI上部署SCP。解决方案需要专家去查,根据具体原因分析。
裸金属服务器使用的网络是管理与存储复用
2、 主要说一下裸金属服务器组LVM时会出现报错如何解决。
在裸金属服务器组建LVM报错:
(部署完AICP平台后出现的)在AICP配置存储LocalStorage报错:
前提:SKE容器已经完成裸金属服务器的纳管操作。
步骤一:进入SKE后台,kubectl edit deployment platform-manager -n aicp-system先打开这个
步骤二:找到一行/sys/block/vda 更改为/sys/block,保存即可。
步骤三:返回平台等待5分钟后,刷新界面,此报错即可解决。
3、 部署AICP平台,很简单将下载好的文件导入,等待自动部署完成即可。不做过多介绍,请看手册。
4、【重点】由于AICP 1.1.0版本内置还没有deepseek,需要上传deepseek支持的文件,下载deepseek兼容包上传。(注意:deepseek支持的功能,不支持训练等。)
将下载好的文件上传至此地方(具体详细可见附件)
确认镜像版本在区间在以下列表,如果不是以下镜像列表
5、 导入deepseek模型
(图中文件为未量化版本,实际跑起来的是int8的量化版本,忘记拍照记录了)
上传成功后组建服务,就可以选deepseek模型了。
6、 启动模型
测试此项目首次上传成了未量化版本,导致实例一直启动失败,查看日志发现是显存不够。之后删掉未量化模型,重新上传int8的量化版本,再建立模型启动成功。
测试性能
最后接入chatbox工具测试效果
Chatbox工具:https://chatboxai.app/zh
配置调优参数: 将VLLM引擎中的多步调度功能启用, 启用方式--将参数"num-scheduler-steps": 1, 改为这个 "num-scheduler-steps": 8,
附件: |