×

公司准备自建一个大模型AI,需要准备哪些?

小鱼学安全 34

{{ttag.title}}
公司准备自建一个大模型AI,需要准备哪些?

解决该疑问,预计可以帮助到 46 人!

回帖即可获得
2S豆
,被楼主采纳即奖励20S豆+10分钟内回帖奖励10S豆 [已过期] ,了解更多S豆奖励信息

完善手机号和公司名称,让服务更省心更便捷!立即完善

小鱼儿 发表于 2025-9-23 17:00
  
公司自建大模型 AI 需要在多个方面进行准备,包括明确业务需求、准备硬件设施、搭建软件环境、组建专业团队等,具体如下:
明确业务需求和目标:首先要确定公司使用大模型 AI 想要解决的具体业务问题,例如提升客服效率、优化内容创作、加速知识检索、辅助决策或进行个性化推荐等。并且要设定可衡量的目标,如客服机器人解决 80% 的常见问题,内容创作效率提升 50% 等,目标应符合 SMART 原则。
硬件准备:
计算设备:CPU 负责数据处理和小模型推理,而训练大模型和追求高性能推理则需要 GPU,NVIDIA GPU 是主流选择。企业可根据预算和需求选择不同的硬件方案,如初期探索可使用普通配置电脑或现有服务器(CPU 即可),对性能有一定要求但预算有限可选择 1-2 张 NVIDIA RTX 3060/4060 级别的 GPU 服务器,大型企业对性能要求极高可选择 4-8 张 NVIDIA A100/H100 级别的多 GPU 服务器或 GPU 集群,也可选择租用云服务商的 GPU 云服务器。
存储设备:建议使用 SSD 固态硬盘,其速度更快,能满足大模型数据存储和快速读取的需求,若数据量极大,可搭配 HDD 机械硬盘。
网络设备:需要高速稳定的网络设备,以确保数据在各个硬件之间能够快速、稳定地传输。
软件准备:
操作系统:推荐使用 Ubuntu 20.04、CentOS 等稳定的 Linux 发行版。
编程语言与工具:Python 版本应不低于 3.8,同时需要安装 CUDA、cuDNN 等 GPU 加速组件,还可根据需求选择 Anaconda 或 Docker 环境进行隔离部署,以及 Git、wget 等基本工具。
数据准备:收集与业务相关的公开数据、企业内部数据和外部数据等,然后对数据进行预处理,包括清洗、加工、标注、数据增强等,以提高数据质量,确保数据符合模型训练的要求。
选择合适的 AI 模型:根据业务需求选择合适的模型类型,如处理文字可选择 BERT、DeepSeek、Qwen、Llama 等,处理图像可选择 FLUX 等。优先考虑开源的预训练模型,如 NLP 领域的 deepseek R1V3、Qwen、Llama3 等,这些模型免费、透明、可定制,社区支持丰富,能节省时间和成本。
组建专业团队:自建大模型 AI 需要多个技术岗位的人员,包括 AI 算法工程师、系统工程师、数据工程师等,一个具备完整能力的 AI 团队通常不低于 10 人。
数据安全与合规:确保数据的安全存储和使用,遵守相关的法律法规和行业标准,保护企业和用户的隐私数据,防止数据泄露和滥用。
模型评估与优化:选择合适的评估工具和指标,如 SuperCLUE、Ragas 等,对模型的性能、适用性、稳定性、安全性和可解释性等进行评估,根据评估结果对模型进行优化和改进。
王老师 发表于 2025-9-23 17:02
  
核心问题定位要先搞清楚,比如:
业务场景:确定模型的具体应用场景(如智能客服、代码生成、内容审核、医疗诊断等),不同场景对模型能力的要求差异极大。
示例:医疗诊断需高精度、可解释性,而内容生成可能更注重创意和多样性。
性能指标:定义关键指标(如准确率、响应时间、吞吐量、成本效率),作为后续技术选型的依据。
示例:智能客服要求响应时间<1秒,准确率>90%。
王老师 发表于 2025-9-23 17:04
  
接下来要考虑技术架构设计,毕竟自建一个大模型AI跟安装一台服务器不一样:
1. 模型选型与架构
基础模型选择:
开源模型:根据场景选择预训练模型(如Llama 3适合通用对话,Qwen-VL适合多模态任务)。
自研模型:若需极致定制化(如特定领域知识融合),可设计Transformer变体架构(如加入专家混合机制MoE)。
模型规模:
参数量需与数据量和算力匹配(如千亿参数模型需TB级数据和万卡级算力)。
建议:初期从中小规模(如7B-70B参数)试点,逐步扩展。
2. 数据工程
数据收集:
内部数据:业务日志、用户反馈、专有知识库(如医疗病例、法律条文)。
外部数据:公开数据集(如Common Crawl、BooksCorpus)、合规采购的第三方数据。
数据清洗与标注:
去除噪声(如重复、错误数据)、平衡类别分布(如分类任务中各标签样本量相近)。
标注策略:
人工标注:高精度但成本高,适合核心数据(如医疗诊断标签)。
半自动标注:利用弱监督或主动学习降低人力成本(如用规则生成初步标签,再人工修正)。
数据版本管理:
使用工具(如DVC、MLflow)跟踪数据集版本,确保实验可复现。
3. 算力规划
硬件选型:
训练阶段:
GPU:NVIDIA A100/H100(支持FP8/TF32加速)、AMD MI300X(性价比选项)。
网络:InfiniBand(低延迟、高带宽,适合大规模集群)。
推理阶段:
可考虑CPU优化(如Intel AMX指令集)或专用芯片(如Google TPU、AWS Inferentia)。
集群架构:
分布式训练框架:PyTorch FSDP、Horovod、DeepSpeed(支持ZeRO优化)。
资源调度:Kubernetes + Volcano(管理多租户算力分配)。
成本估算:
训练千亿参数模型:假设使用512张A100(80GB),训练1轮约需
100,000−
200,000(云服务价格)。
推理成本:按QPS(每秒查询数)和模型大小计算(如7B模型单次推理成本约$0.001)。
新手474999 发表于 2025-9-23 21:06
  
可以考虑和深信服办事处沟通下ACIP的部署条件

等我来答:

换一批

发表新帖
热门标签
全部标签>
2025年技术争霸赛
每日一问
GIF动图学习
标准化排查
功能体验
新版本体验
纪元平台
产品连连看
安装部署配置
平台使用
【 社区to talk】
信服课堂视频
高手请过招
2024年技术争霸赛
安全效果
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
每周精选
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
社区新周刊
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

2
1
6

发帖

粉丝

关注

本版热帖

本版达人