中国人工智能开发商 DeepSeek 近日发布了全新的开源大语言模型系列。
此次发布的 V4 系列包含两款大语言模型:旗舰版 V4-Pro 以及轻量版 V4-Flash。V4-Flash 在一定程度上牺牲了输出质量,以换取更低的硬件资源占用。
两款模型均采用混合专家(MoE)架构,即由多个神经网络协同工作,而非单一的人工神经元网络。V4-Pro 拥有 1.6 万亿参数,在响应用户提示时激活约 490 亿参数的子网络;V4-Flash 则拥有 2840 亿参数,每次推理时激活约 130 亿参数。
V4 系列的一项重要架构创新是"混合注意力机制"。大语言模型的注意力机制负责根据重要性对用户输入的数据点进行排序,在生成回复时优先关注最相关的信息,过滤无关细节,从而提升输出质量。
注意力机制并非直接处理原始提示词,而是使用一种名为 KV 缓存的数学表达形式。V4 的混合注意力架构采用两种不同的压缩方法来缩减 KV 缓存的体积,进而降低内存占用。与 DeepSeek 上一代大语言模型相比,V4 系列在推理阶段的 KV 缓存内存占用减少了 90%。
V4 系列还引入了多项针对训练流程的优化特性。
神经网络由若干被称为"层"的人工神经元集合构成,数据依次流经各层进行处理:先进入第一层完成一系列运算,结果传递至第二层,再经第二层运算后传至第三层,以此类推。
在训练过程中,数据会在各层之间频繁传递。V4 引入了一项名为 mHC 的特性,允许数据在不经过中间神经元层的情况下,直接在相距较远的层之间传输。这种方式有效减少了训练误差,进而提升了 AI 的输出质量。
大语言模型首尾两层之间的神经元集合称为隐藏层。据 DeepSeek 介绍,V4 采用一个名为 Muon 的软件模块对隐藏层进行优化,有助于加快训练速度并降低相关的基础设施需求。
V4 的初始训练使用了约 27 万亿 Token 的数据集,随后经历了两阶段的后训练流程:第一阶段分别对各子神经网络进行独立优化,第二阶段则专注于提升各子网络之间的协同配合能力。
在评测方面,DeepSeek 使用约 24 项基准测试对 V4 系列中能力最强的 V4-Pro 进行了评估,并将其与包括 Claude Opus 4.6 在内的多个前沿模型进行了横向对比。V4-Pro 在其中 3 项基准测试中超越了所有参与比较的大语言模型,在其余多项测试中也优于部分竞争模型。
目前,V4-Pro 与 V4-Flash 均已在 Hugging Face 平台上提供预览版本。
Q&A
Q1:DeepSeek V4 系列包含哪些模型,有什么区别?
A:DeepSeek V4 系列目前包含两款大语言模型:旗舰版 V4-Pro 和轻量版 V4-Flash。V4-Pro 拥有 1.6 万亿参数,推理时激活约 490 亿参数,性能更强;V4-Flash 拥有 2840 亿参数,推理时激活约 130 亿参数,适合对硬件资源要求较低的场景,但输出质量相对有所取舍。两款模型均采用混合专家(MoE)架构。
Q2:DeepSeek V4 的混合注意力机制有什么作用?
A:混合注意力机制是 V4 系列的核心架构创新之一。它通过两种不同的压缩方法缩减 KV 缓存的体积,大幅降低推理阶段的内存占用。与 DeepSeek 上一代大语言模型相比,V4 的 KV 缓存内存使用量减少了 90%,在保持输出质量的同时显著降低了硬件门槛。
Q3:DeepSeek V4-Pro 的性能表现如何,和其他模型比怎么样?
A:DeepSeek 使用约 24 项基准测试对 V4-Pro 进行了评估,并与 Claude Opus 4.6 等多个前沿大语言模型进行了对比。结果显示,V4-Pro 在其中 3 项基准测试中全面超越所有参与比较的模型,在其余多项测试中也优于部分竞争对手,整体表现具备一定竞争力。