新一代Mistral 3开源模型系列为开发者和企业提供了行业领先的精准度、效率和定制能力。从某机构GB200 NVL72到边缘平台,Mistral 3经过了全栈优化,包含以下模型:
所有模型均在英伟达Hopper GPU上完成训练,现可通过某AI机构在 Hugging Face 平台上获取。开发者可以根据不同的英伟达GPU、模型精度格式以及开源框架兼容性,选择多种部署方案(见表1)。
模型规格 | Mistral Large 3 | Ministral-3-14B | Ministral-3-8B | Ministral-3-3B |
|---|---|---|---|---|
总参数量 | 675B | 14B | 8B | 3B |
激活参数量 | 41B | 14B | 8B | 3B |
上下文窗口 | 256K | 256K | 256K | 256K |
基础版 | – | BF16 | BF16 | BF16 |
指令版 | – | Q4_K_M, FP8, BF16 | Q4_K_M, FP8, BF16 | Q4_K_M, FP8, BF16 |
推理版 | Q4_K_M, NVFP4, FP8 | Q4_K_M, BF16 | Q4_K_M, BF16 | Q4_K_M, BF16 |
推理框架支持 | ||||
vLLM | ✔ | ✔ | ✔ | ✔ |
SGLang | ✔ | – | – | – |
TensorRT-LLM | ✔ | – | – | – |
Llama.cpp | – | ✔ | ✔ | ✔ |
Ollama | – | ✔ | ✔ | ✔ |
英伟达硬件支持 | ||||
GB200 NVL72 | ✔ | ✔ | ✔ | ✔ |
Dynamo | ✔ | ✔ | ✔ | ✔ |
DGX Spark | ✔ | ✔ | ✔ | ✔ |
RTX 系列 | – | ✔ | ✔ | ✔ |
Jetson系列 | – | ✔ | ✔ | ✔ |
表1. Mistral 3 模型规格
英伟达加速的Mistral Large 3模型,通过利用针对大型先进MoE模型定制的一套全面优化技术栈,在某机构GB200 NVL72平台上实现了顶级性能。图1展示了GB200 NVL72与某机构H200在不同交互性指标下的性能帕累托前沿对比。
图1. Mistral Large 3 每兆瓦性能对比:某机构 GB200 NVL72 与某机构 H200 在不同交互性目标下的表现
在生产级AI系统需要兼顾优质用户体验与成本效益规模化时,GB200提供了比上代H200高达10倍的性能提升,在每用户每秒处理40个令牌的场景下,每兆瓦算力可处理超过5,000,000个令牌。
这一代际性能提升为新模型带来了更优的用户体验、更低的单令牌成本以及更高的能效。该增益主要得益于以下推理优化技术栈的核心组件:
与所有模型一样,未来的性能优化(例如:结合多令牌预测的推测解码和EAGLE-3技术)预计将进一步提升性能,充分挖掘新模型的潜力。
针对Mistral Large 3,开发者可部署经过计算优化的NVFP4检查点,该检查点通过开源库 llm-compressor 进行离线量化。该方法利用NVFP4更高精度的FP8缩放因子和更细粒度的块缩放来控制量化误差,从而在保持模型精度的同时,降低计算和内存成本。
该量化方案仅针对MoE权重,而模型其他部分则保留原始检查点的精度。由于NVFP4是Blackwell架构的原生格式,此量化变体可在GB200 NVL72上无缝部署。NVFP4的FP8缩放因子与细粒度块缩放确保了低量化误差,以极小的精度损失换取了更低计算与内存开销。
这些开源权重模型可搭配您选择的任意开源推理框架使用。
图2. 英伟达构建平台提供的多种GPU选型,开发者可据此部署Mistral Large 3和Ministral 3
小型、密集的高性能Ministral 3系列模型专为边缘部署设计。为满足多样化需求,该系列提供3B、8B和14B三种参数规模,每种均包含基础版、指令版和推理版。您可以在某机构GeForce RTX AI PC、某机构DGX Spark以及某机构Jetson等边缘平台上体验这些模型。
即使在本地开发,您依然能获得英伟达加速的优势。英伟达与Ollama及Llama.cpp合作,实现了更快的迭代速度、更低的延迟和更强的数据隐私保护。在英伟达RTX 5090 GPU上运行Ministral-3B变体,推理速度可高达每秒385个令牌。
对于Ministral-3-3B-指令版,Jetson开发者可在某机构Jetson Thor平台上使用vLLM容器,单并发下实现每秒52令牌,并发数增至8时,吞吐量可扩展至每秒273令牌。
Mistral Large 3 和 Ministral-14B-指令版现已通过某机构API目录及预览版API开放使用,开发者无需复杂配置即可快速上手。企业开发者不久后可通过可下载的英伟达NIM微服务,在任何GPU加速基础设施上轻松部署。
视频1. Mistral 3 用户可输入文本与图像,并查看托管模型的响应
英伟达加速的Mistral 3开源模型家族,是跨大西洋AI合作在开源社区的一次重大飞跃。该系列模型兼顾了大规模MoE与边缘友好型密集Transformer的灵活性,适应了开发者当前所处的不同阶段与开发生命周期。
凭借英伟达优化的性能、先进的量化技术(如NVFP4)以及广泛的框架支持,开发者能够从云端到边缘实现卓越的效率与可扩展性。立即开始,从 Hugging Face 下载Mistral 3模型,或直接在 build.nvidia.com/mistralai 上进行免部署测试。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。