DeepSeek知识分享
  

山与海 4556

{{ttag.title}}
本帖最后由 山与海 于 2025-3-14 11:16 编辑

1、DeepSeek 671B, B 是什么含义?
答:在 DeepSeek 671B 中,"B"代表的是 Billion(十亿参数),表示模型的参数量级,直接影响计算复杂度和显存占用。671B 意味着模型拥有 6710 亿个参数,这使得模型具有极大的容量,能够学习和记忆海量的知识与信息,对各种复杂语言模式和语义关系的捕捉能力较强。
2、DeepSeek 模型当中谈到的 Token 是什么含义?
答:Token 是大模型处理文本时的最小单位,就像把文本切成一块块的小碎片。它不是单词,也不是字符,而是模型根据自己的规则(分词器)把文本切分后的结果。Token 的长度不固定,取决于分词器的规则。
3、什么是推理? 训练和推理有什么区别?
答:AI 推理是指经过训练的 AI 模型,从全新数据中得出结论的过程,推理就是人工智能模型的实际运行。
AI 训练比推理需要更多资源,因为训练过程涉及复杂的梯度计算和参数更新,同时需要处理海量数据。推理仅需完成前向传播,对资源的需求较低且优化空间更大。两者在计算量、内存和硬件需求上的本质差异,决定了训练资源需求更大。
4、大模型推理时所说的上下文是什么意思?
答:大模型推理的上下文长度是指一次处理过程中所能理解和生成的 token 的最大长度。即输入提示词+模型生成字符的总和。上下文长度越长,模型能理解和保持的背景信息就越多,生成的内容就更具有连贯性。但同时上下文长度越长占用的计算资源越多。
5、如何正确理解 DeepSeek 671B 的满血版?
答:DeepSeek 671B 的满血版是指具备 671B 参数规模的完整版本。根据计算精度的不同,分为原生满血版(采用 FP8 混合精度)、转译满血版(采用 BF16 或 FP16 精度)以及量化满血版(采用 INT8、INT4 等量化精度)。
      原生满血版由 DeepSeek 官方支持,具有最高的计算精度和性能表现,但对硬件要求也最为苛刻。
      转译满血版是为了适配不支持 FP8 精度的硬件而设计,虽然精度损失较小,但硬件需求会显著增加。
      量化满血版则通过降低计算精度来减少显存占用和提高吞吐效率,但会以牺牲部分性能为代价
6、DeepSeek 系列对 GPU 资源的要求如何?

5392167d39da016271.png (28.81 KB, 下载次数: 358)

5392167d39da016271.png

4429867d39dc51909d.png (50.98 KB, 下载次数: 363)

4429867d39dc51909d.png

261467d39e562f53b.png (51.42 KB, 下载次数: 357)

261467d39e562f53b.png

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

水之蓝色 发表于 2025-3-28 14:01
  
学习了!感谢分享!!!!
jan 发表于 2025-4-3 09:00
  
感谢楼主分享,更了解AI知识了!!!
发表新帖
热门标签
全部标签>
【 社区to talk】
每日一问
高手请过招
新版本体验
安装部署配置
产品连连看
标准化排查
GIF动图学习
网络基础知识
功能体验
社区新周刊
技术笔记
2023技术争霸赛专题
纪元平台
信服课堂视频
解决方案
秒懂零信任
运维工具
排障笔记本
安全效果
畅聊IT
答题自测
VPN 对接
云化安全能力
关键解决方案
技术圆桌
设备维护
迁移
技术晨报
平台使用
文档捉虫
每周精选
场景专题
西北区每日一问
产品解析
专家问答
在线直播
MVP
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
用户认证
原创分享
sangfor周刊
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
资源访问
地址转换
虚拟机
存储
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
卧龙计划
华北区拉练
天逸直播
以战代练
技术盲盒
山东区技术晨报
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
专家说
热门活动
产品动态
行业实践

本版版主

8
2
2

发帖

粉丝

关注

3
5
0

发帖

粉丝

关注

0
1
0

发帖

粉丝

关注

27
7
0

发帖

粉丝

关注

1
0
0

发帖

粉丝

关注

本版达人