英伟达加速Mistral 3开源模型：全栈优化驱动高效精准AI

原创

用户11764306

发布于 2026-02-13 07:10:33

3960

新一代Mistral 3开源模型系列为开发者和企业提供了行业领先的精准度、效率和定制能力。从某机构GB200 NVL72到边缘平台，Mistral 3经过了全栈优化，包含以下模型：

一个总参数量达675B、采用稀疏多模态多语言混合专家架构（MoE）的大型SOTA模型。
一套高性能密集模型套件（命名为Ministral 3），参数规模为3B、8B和14B，每个规模均提供基础版（Base）、指令版（Instruct）和推理版（Reasoning）变体（共九个模型）。

所有模型均在英伟达Hopper GPU上完成训练，现可通过某AI机构在 Hugging Face 平台上获取。开发者可以根据不同的英伟达GPU、模型精度格式以及开源框架兼容性，选择多种部署方案（见表1）。

模型规格	Mistral Large 3	Ministral-3-14B	Ministral-3-8B	Ministral-3-3B
总参数量	675B	14B	8B	3B
激活参数量	41B	14B	8B	3B
上下文窗口	256K	256K	256K	256K
基础版	–	BF16	BF16	BF16
指令版	–	Q4_K_M, FP8, BF16	Q4_K_M, FP8, BF16	Q4_K_M, FP8, BF16
推理版	Q4_K_M, NVFP4, FP8	Q4_K_M, BF16	Q4_K_M, BF16	Q4_K_M, BF16
推理框架支持
vLLM	✔	✔	✔	✔
SGLang	✔	–	–	–
TensorRT-LLM	✔	–	–	–
Llama.cpp	–	✔	✔	✔
Ollama	–	✔	✔	✔
英伟达硬件支持
GB200 NVL72	✔	✔	✔	✔
Dynamo	✔	✔	✔	✔
DGX Spark	✔	✔	✔	✔
RTX 系列	–	✔	✔	✔
Jetson系列	–	✔	✔	✔

表1. Mistral 3 模型规格

英伟达加速的Mistral Large 3模型，通过利用针对大型先进MoE模型定制的一套全面优化技术栈，在某机构GB200 NVL72平台上实现了顶级性能。图1展示了GB200 NVL72与某机构H200在不同交互性指标下的性能帕累托前沿对比。

图1. Mistral Large 3 每兆瓦性能对比：某机构 GB200 NVL72 与某机构 H200 在不同交互性目标下的表现

在生产级AI系统需要兼顾优质用户体验与成本效益规模化时，GB200提供了比上代H200高达10倍的性能提升，在每用户每秒处理40个令牌的场景下，每兆瓦算力可处理超过5,000,000个令牌。

这一代际性能提升为新模型带来了更优的用户体验、更低的单令牌成本以及更高的能效。该增益主要得益于以下推理优化技术栈的核心组件：

英伟达 TensorRT-LLM 宽专家并行：提供优化的MoE分组GEMM内核、专家分发与负载均衡以及专家调度能力，充分利用NVL72的一致性内存域。尤为值得注意的是，该宽专家并行特性集对大型MoE模型的架构差异具有很强的适应性，使得Mistral Large 3（每层专家数约128个，约为DeepSeek-R1的一半）同样能够获得英伟达NVLink互联架构的高带宽、低延迟、无阻塞优势。
兼顾效率与精度的低精度推理：通过NVFP4量化实现，并已获得SGLang、TensorRT-LLM和vLLM的支持。
英伟达 Dynamo分布式推理框架：Mistral Large 3依赖此低延迟分布式推理框架，实现推理过程中预填充与解码阶段的分离，从而提升长上下文工作负载（如图1中8K/1K配置）的性能。

与所有模型一样，未来的性能优化（例如：结合多令牌预测的推测解码和EAGLE-3技术）预计将进一步提升性能，充分挖掘新模型的潜力。

针对Mistral Large 3，开发者可部署经过计算优化的NVFP4检查点，该检查点通过开源库 llm-compressor 进行离线量化。该方法利用NVFP4更高精度的FP8缩放因子和更细粒度的块缩放来控制量化误差，从而在保持模型精度的同时，降低计算和内存成本。

该量化方案仅针对MoE权重，而模型其他部分则保留原始检查点的精度。由于NVFP4是Blackwell架构的原生格式，此量化变体可在GB200 NVL72上无缝部署。NVFP4的FP8缩放因子与细粒度块缩放确保了低量化误差，以极小的精度损失换取了更低计算与内存开销。

这些开源权重模型可搭配您选择的任意开源推理框架使用。

TensorRT-LLM：利用针对大型MoE模型的优化，提升GB200 NVL72系统上的性能。可开箱即用TensorRT-LLM的预配置Docker容器。
vLLM：英伟达与vLLM项目合作，扩展了对推测解码内核集成、英伟达Blackwell架构、分离式推理以及扩展并行性的支持。可部署在英伟达云GPU上使用vLLM的方案。查看运行Mistral Large 3 675B指令版与vLLM于英伟达GPU的示例，获取模型服务的样板代码及常见用例的API调用示例。
SGLang：英伟达亦与SGLang合作，实现了支持分离式推理与推测解码的Mistral Large 3。可立即尝试在英伟达云GPU上部署使用SGLang的方案。

图2. 英伟达构建平台提供的多种GPU选型，开发者可据此部署Mistral Large 3和Ministral 3