本帖最后由 山与海 于 2025-3-14 11:16 编辑
1、DeepSeek 671B, B 是什么含义?答:在 DeepSeek 671B 中,"B"代表的是 Billion(十亿参数),表示模型的参数量级,直接影响计算复杂度和显存占用。671B 意味着模型拥有 6710 亿个参数,这使得模型具有极大的容量,能够学习和记忆海量的知识与信息,对各种复杂语言模式和语义关系的捕捉能力较强。 2、DeepSeek 模型当中谈到的 Token 是什么含义? 答:Token 是大模型处理文本时的最小单位,就像把文本切成一块块的小碎片。它不是单词,也不是字符,而是模型根据自己的规则(分词器)把文本切分后的结果。Token 的长度不固定,取决于分词器的规则。 3、什么是推理? 训练和推理有什么区别? 答:AI 推理是指经过训练的 AI 模型,从全新数据中得出结论的过程,推理就是人工智能模型的实际运行。 AI 训练比推理需要更多资源,因为训练过程涉及复杂的梯度计算和参数更新,同时需要处理海量数据。推理仅需完成前向传播,对资源的需求较低且优化空间更大。两者在计算量、内存和硬件需求上的本质差异,决定了训练资源需求更大。 4、大模型推理时所说的上下文是什么意思? 答:大模型推理的上下文长度是指一次处理过程中所能理解和生成的 token 的最大长度。即输入提示词+模型生成字符的总和。上下文长度越长,模型能理解和保持的背景信息就越多,生成的内容就更具有连贯性。但同时上下文长度越长占用的计算资源越多。 5、如何正确理解 DeepSeek 671B 的满血版? 答:DeepSeek 671B 的满血版是指具备 671B 参数规模的完整版本。根据计算精度的不同,分为原生满血版(采用 FP8 混合精度)、转译满血版(采用 BF16 或 FP16 精度)以及量化满血版(采用 INT8、INT4 等量化精度)。 原生满血版由 DeepSeek 官方支持,具有最高的计算精度和性能表现,但对硬件要求也最为苛刻。 转译满血版是为了适配不支持 FP8 精度的硬件而设计,虽然精度损失较小,但硬件需求会显著增加。 量化满血版则通过降低计算精度来减少显存占用和提高吞吐效率,但会以牺牲部分性能为代价 6、DeepSeek 系列对 GPU 资源的要求如何? |