DeepSeek知识分享
  

山与海 840

{{ttag.title}}
本帖最后由 山与海 于 2025-3-14 11:16 编辑

1、DeepSeek 671B, B 是什么含义?
答:在 DeepSeek 671B 中,"B"代表的是 Billion(十亿参数),表示模型的参数量级,直接影响计算复杂度和显存占用。671B 意味着模型拥有 6710 亿个参数,这使得模型具有极大的容量,能够学习和记忆海量的知识与信息,对各种复杂语言模式和语义关系的捕捉能力较强。
2、DeepSeek 模型当中谈到的 Token 是什么含义?
答:Token 是大模型处理文本时的最小单位,就像把文本切成一块块的小碎片。它不是单词,也不是字符,而是模型根据自己的规则(分词器)把文本切分后的结果。Token 的长度不固定,取决于分词器的规则。
3、什么是推理? 训练和推理有什么区别?
答:AI 推理是指经过训练的 AI 模型,从全新数据中得出结论的过程,推理就是人工智能模型的实际运行。
AI 训练比推理需要更多资源,因为训练过程涉及复杂的梯度计算和参数更新,同时需要处理海量数据。推理仅需完成前向传播,对资源的需求较低且优化空间更大。两者在计算量、内存和硬件需求上的本质差异,决定了训练资源需求更大。
4、大模型推理时所说的上下文是什么意思?
答:大模型推理的上下文长度是指一次处理过程中所能理解和生成的 token 的最大长度。即输入提示词+模型生成字符的总和。上下文长度越长,模型能理解和保持的背景信息就越多,生成的内容就更具有连贯性。但同时上下文长度越长占用的计算资源越多。
5、如何正确理解 DeepSeek 671B 的满血版?
答:DeepSeek 671B 的满血版是指具备 671B 参数规模的完整版本。根据计算精度的不同,分为原生满血版(采用 FP8 混合精度)、转译满血版(采用 BF16 或 FP16 精度)以及量化满血版(采用 INT8、INT4 等量化精度)。
      原生满血版由 DeepSeek 官方支持,具有最高的计算精度和性能表现,但对硬件要求也最为苛刻。
      转译满血版是为了适配不支持 FP8 精度的硬件而设计,虽然精度损失较小,但硬件需求会显著增加。
      量化满血版则通过降低计算精度来减少显存占用和提高吞吐效率,但会以牺牲部分性能为代价
6、DeepSeek 系列对 GPU 资源的要求如何?

5392167d39da016271.png (28.81 KB, 下载次数: 29)

5392167d39da016271.png

4429867d39dc51909d.png (50.98 KB, 下载次数: 27)

4429867d39dc51909d.png

261467d39e562f53b.png (51.42 KB, 下载次数: 28)

261467d39e562f53b.png

打赏鼓励作者,期待更多好文!

打赏
暂无人打赏

发表新帖
热门标签
全部标签>
每日一问
新版本体验
【 社区to talk】
纪元平台
安全效果
功能体验
标准化排查
技术咨询
产品连连看
秒懂零信任
社区新周刊
高手请过招
运维工具
自助服务平台操作指引
GIF动图学习
技术圆桌
日志审计
资源访问
西北区每日一问
云化安全能力
信服课堂视频
专家问答
安装部署配置
项目案例
社区帮助指南
技术晨报
文档捉虫活动
每周精选
畅聊IT
答题自测
技术笔记
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
问题分析处理
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
干货满满
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
2023技术争霸赛专题
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
技术盲盒
山东区技术晨报
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
故障案例库

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人