首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Mistral Forge + Small 4 实战:在腾讯云上部署 119B MoE 模型推理服务

Mistral Forge + Small 4 实战:在腾讯云上部署 119B MoE 模型推理服务

原创
作者头像
用户12284505
发布2026-03-18 14:09:53
发布2026-03-18 14:09:53
2300
举报

Mistral Forge + Small 4 实战:在腾讯云上部署 119B MoE 模型推理服务

Mistral AI 刚刚在 NVIDIA GTC 2026 上发布了 Forge 平台和 Small 4 模型。Small 4 是一个 119B 参数的 MoE 模型,Apache 2.0 开源,每 token 只激活 6B 参数,性能对标 GPT-OSS 120B。本文将带你在腾讯云 GPU 云服务器上用 vLLM 完成从零到上线的全流程部署。

一、Mistral Forge 和 Small 4 是什么

1.1 Forge:企业定制模型的工厂

3 月 17 日,Mistral 在 NVIDIA GTC 上发布了 Forge——一个让企业在自有数据上构建定制 AI 模型的平台。核心能力包括:

  • 模型定制:基于 Mistral 开放权重模型库,用企业数据微调定制模型
  • 数据合成管道:内置数据获取、清洗、合成数据生成的全套工具
  • Agent 优先架构:暴露接口让 Agent 自主启动训练实验、搜索超参数、调度任务
  • 强化学习训练:支持用 RL 训练 Agent 系统,减少对第三方模型的依赖

早期合作伙伴包括 Ericsson、欧洲航天局、Reply(意大利咨询)等。

1.2 Small 4:一个模型干四个模型的活

Mistral Small 4 是 Forge 平台的首发模型,也是本文部署的目标。关键参数:

参数项

总参数量

119B

架构

MoE(Mixture of Experts)

专家数量

128 个专家,每 token 激活 4 个

活跃参数量

6B / token(含 embedding 约 8B)

上下文窗口

256K

多模态

文本 + 图像

许可证

Apache 2.0

Small 4 统一了四个前代模型的能力:

  • Mistral Small(指令跟随)
  • Magistral(推理)
  • Pixtral(多模态理解)
  • Devstral(Agent 编码)

亮点功能:支持 reasoning_effort 参数,按请求动态调整推理深度:

代码语言:javascript
复制
# 快速响应,等同于 Small 3.2
response = client.chat(model="mistral-small-4", reasoning_effort="none", ...)

# 深度推理,逐步思考
response = client.chat(model="mistral-small-4", reasoning_effort="high", ...)

1.3 性能基准

基准测试

Small 4

GPT-OSS 120B

备注

AA LCR

0.72 (1.6K chars)

对标

Qwen 需 5.8K-6.1K chars

LiveCodeBench

超越

基线

输出量少 20%

AIME 2025

持平

基线

数学推理

对比 Small 3

延迟 -40%,吞吐 3x

同等硬件

二、整体架构设计

在腾讯云上部署 Small 4 推理服务的架构如下:

代码语言:javascript
复制
┌──────────────────────────────────────────────────────────┐
│                     客户端 / API 调用                      │
└─────────────────────────┬────────────────────────────────┘
                          │ HTTPS
                          ▼
              ┌───────────────────────┐
              │    腾讯云 CLB 负载均衡   │
              └───────────┬───────────┘
                          │
              ┌───────────▼───────────┐
              │   Nginx 反向代理层      │
              │   (API Key 鉴权/限流)   │
              └───────────┬───────────┘
                          │
            ┌─────────────┼─────────────┐
            ▼             ▼             ▼
   ┌────────────┐ ┌────────────┐ ┌────────────┐
   │  vLLM 实例1 │ │  vLLM 实例2 │ │  vLLM 实例3 │
   │  (2×A100)  │ │  (2×A100)  │ │  (2×A100)  │
   └──────┬─────┘ └──────┬─────┘ └──────┬─────┘
          │              │              │
          └──────────────┼──────────────┘
                         │
              ┌──────────▼──────────┐
              │   腾讯云 COS 存储     │
              │  (模型权重 + LoRA)    │
              └─────────────────────┘

组件说明

组件

腾讯云产品

规格建议

GPU 推理节点

GPU 云服务器 GN10Xp

2×A100 80GB / 节点

负载均衡

CLB

四层 TCP 转发

模型存储

COS 对象存储

标准存储,就近地域

容器编排(可选)

TKE 容器服务

GPU 节点池

监控

云监控 + Prometheus

GPU 利用率、推理延迟

三、部署步骤

3.1 创建 GPU 云服务器

在腾讯云控制台创建实例:

  • 机型:GPU 计算型 GN10Xp(推荐)或 GN7
  • GPU:选择 2×NVIDIA A100 80GB
  • 系统:Ubuntu 22.04 LTS
  • 存储:系统盘 100GB SSD + 数据盘 500GB SSD
  • 网络:选择 VPC,开放 8000 端口(vLLM 服务端口)
代码语言:javascript
复制
# SSH 登录实例后,验证 GPU
nvidia-smi
# 应显示 2 块 A100 80GB

3.2 安装基础环境

代码语言:javascript
复制
# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装 CUDA 12.4(如未预装)
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run
sudo sh cuda_12.4.0_550.54.14_linux.run --silent --toolkit

# 安装 Python 3.11 和 pip
sudo apt install python3.11 python3.11-venv python3-pip -y

# 创建虚拟环境
python3.11 -m venv ~/mistral-env
source ~/mistral-env/bin/activate

3.3 安装 vLLM

代码语言:javascript
复制
# 安装 vLLM(确保版本 >= 0.17.0,支持 Small 4)
pip install vllm>=0.17.0

# 安装 Hugging Face CLI(下载模型用)
pip install huggingface_hub[cli]

# 登录 Hugging Face(需要 token)
huggingface-cli login

3.4 下载模型权重

Small 4 模型约 240GB(FP16),建议先下载到腾讯云 COS 再拉取到本地:

代码语言:javascript
复制
# 方法一:直接从 Hugging Face 下载到本地数据盘
mkdir -p /data/models
huggingface-cli download mistralai/Mistral-Small-4-119B-2603 \
  --local-dir /data/models/mistral-small-4 \
  --local-dir-use-symlinks False

# 方法二:FP8 量化版本(推荐,显存占用减半)
huggingface-cli download mistralai/Mistral-Small-4-119B-2603-FP8 \
  --local-dir /data/models/mistral-small-4-fp8 \
  --local-dir-use-symlinks False

提示:FP8 量化版本约 120GB,2×A100 80GB 即可运行。FP16 全精度需要 4×A100。对于大多数场景,FP8 的精度损失可以忽略。

3.5 启动 vLLM 推理服务

代码语言:javascript
复制
# FP8 量化版本启动(2×A100 80GB)
vllm serve /data/models/mistral-small-4-fp8 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --dtype auto \
  --trust-remote-code \
  --api-key your-secret-key-here

参数说明

参数

作用

建议值

--tensor-parallel-size

GPU 张量并行数

与 GPU 数量一致

--max-model-len

最大上下文长度

32768(省显存)或 131072

--gpu-memory-utilization

GPU 显存利用率

0.85-0.92

--api-key

API 密钥

自定义,用于鉴权

启动成功后,终端输出:

代码语言:javascript
复制
INFO:     Started server process
INFO:     Waiting for application startup
INFO:     Application startup complete
INFO:     Uvicorn running on http://0.0.0.0:8000

3.6 验证服务

vLLM 默认提供 OpenAI 兼容 API,可以直接用 curl 或 Python 客户端调用:

代码语言:javascript
复制
# 健康检查
curl http://localhost:8000/health

# 查看可用模型
curl http://localhost:8000/v1/models \
  -H "Authorization: Bearer your-secret-key-here"
代码语言:javascript
复制
# Python 客户端调用
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="your-secret-key-here"
)

# 基础对话
response = client.chat.completions.create(
    model="/data/models/mistral-small-4-fp8",
    messages=[
        {"role": "user", "content": "用 Python 写一个快速排序,要求支持泛型"}
    ],
    temperature=0.7,
    max_tokens=2048
)
print(response.choices[0].message.content)
代码语言:javascript
复制
# 利用 reasoning_effort 参数进行深度推理
response = client.chat.completions.create(
    model="/data/models/mistral-small-4-fp8",
    messages=[
        {"role": "user", "content": "分析以下系统的瓶颈并给出优化方案:\n一个日均1000万请求的推荐系统..."}
    ],
    extra_body={"reasoning_effort": "high"},  # 深度推理模式
    temperature=0.3,
    max_tokens=4096
)

四、生产环境优化

4.1 使用 systemd 管理服务

代码语言:javascript
复制
# 创建 systemd service 文件
sudo tee /etc/systemd/system/vllm-mistral.service << 'EOF'
[Unit]
Description=vLLM Mistral Small 4 Inference Service
After=network.target

[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu
Environment="PATH=/home/ubuntu/mistral-env/bin:/usr/local/bin:/usr/bin"
ExecStart=/home/ubuntu/mistral-env/bin/vllm serve /data/models/mistral-small-4-fp8 \
  --host 0.0.0.0 --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --api-key your-secret-key-here
Restart=on-failure
RestartSec=10

[Install]
WantedBy=multi-user.target
EOF

sudo systemctl daemon-reload
sudo systemctl enable vllm-mistral
sudo systemctl start vllm-mistral

# 查看日志
sudo journalctl -u vllm-mistral -f

4.2 Nginx 反向代理 + 限流

代码语言:javascript
复制
# /etc/nginx/conf.d/vllm.conf
upstream vllm_backend {
    server 127.0.0.1:8000;
    keepalive 32;
}

limit_req_zone $binary_remote_addr zone=api_limit:10m rate=10r/s;

server {
    listen 443 ssl;
    server_name your-domain.com;

    ssl_certificate /etc/nginx/ssl/cert.pem;
    ssl_certificate_key /etc/nginx/ssl/key.pem;

    location /v1/ {
        limit_req zone=api_limit burst=20 nodelay;

        proxy_pass http://vllm_backend;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_read_timeout 300s;  # 长推理需要更长超时
        proxy_buffering off;      # 支持流式输出
    }
}

4.3 监控指标

vLLM 内置 Prometheus metrics,端口 8000/metrics,建议监控:

指标

含义

告警阈值

vllm:num_requests_running

当前并发请求数

> 队列深度的 80%

vllm:gpu_cache_usage_perc

KV Cache 使用率

> 95%

vllm:avg_generation_throughput

生成吞吐量(tokens/s)

< 基线的 60%

nvidia_gpu_utilization

GPU 利用率

持续 < 30%(资源浪费)

代码语言:javascript
复制
# 快速检查 metrics
curl http://localhost:8000/metrics | grep vllm

五、成本估算

以腾讯云 GPU 云服务器按量计费为参考:

配置方案

GPU

月费用(估算)

适用场景

入门方案

2×A100 80GB

≈ ¥25,000/月

开发测试、低并发

生产方案

2×节点 × 2×A100

≈ ¥50,000/月

中等并发、高可用

弹性方案

TKE + GPU 节点池

按需弹性

波动流量、成本敏感

省钱提示:使用腾讯云竞价实例(Spot Instance)可节省 50-70% 成本,适合非实时推理任务。预留实例享受更大折扣。

六、和 Forge 平台的结合思路

如果你不止想部署推理,还想用企业数据微调定制模型,可以参考 Forge 的工作流:

代码语言:javascript
复制
企业数据 → 数据清洗/合成 → 基于 Small 4 微调 → 评估 → 部署到推理集群
    │                                                      │
    └──────── Forge 平台管理全流程 ──────────────────────────┘

目前 Forge 处于早期合作阶段,企业可以:

  1. 1. 先部署 Small 4 开源版:按照本文步骤在腾讯云上搭建推理服务
  2. 2. 用 LoRA 微调:在 Small 4 基础上用自有数据做轻量微调(vLLM 支持动态加载 LoRA)
  3. 3. 等待 Forge 开放:Forge 正式开放后,将微调流程迁移到 Forge 平台

LoRA 微调加载示例:

代码语言:javascript
复制
# vLLM 支持在启动时指定 LoRA adapter
vllm serve /data/models/mistral-small-4-fp8 \
  --host 0.0.0.0 --port 8000 \
  --tensor-parallel-size 2 \
  --enable-lora \
  --lora-modules my-custom-model=/data/lora/my-adapter
代码语言:javascript
复制
# 调用时指定 LoRA 模型
response = client.chat.completions.create(
    model="my-custom-model",  # 使用自定义 LoRA adapter
    messages=[{"role": "user", "content": "..."}]
)

七、总结

Mistral Small 4 是目前开源 MoE 模型中性价比最高的选择之一——119B 总参数但每 token 只激活 6B,2 块 A100 即可跑 FP8 版本,性能对标百亿级闭源模型。配合 Forge 平台的企业定制能力,给了中小团队一条"先部署、再微调、最后定制"的渐进式路径。

本文覆盖的技术栈:

层级

技术选型

模型

Mistral Small 4 119B(FP8)

推理框架

vLLM ≥ 0.17.0

GPU

腾讯云 GN10Xp(2×A100 80GB)

服务管理

systemd

反向代理

Nginx + SSL + 限流

监控

Prometheus + 云监控

存储

腾讯云 COS

如果你在部署过程中遇到显存不足、推理延迟异常等问题,欢迎在评论区交流。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Mistral Forge + Small 4 实战:在腾讯云上部署 119B MoE 模型推理服务
    • 一、Mistral Forge 和 Small 4 是什么
      • 1.1 Forge:企业定制模型的工厂
      • 1.2 Small 4:一个模型干四个模型的活
      • 1.3 性能基准
    • 二、整体架构设计
    • 三、部署步骤
      • 3.1 创建 GPU 云服务器
      • 3.2 安装基础环境
      • 3.3 安装 vLLM
      • 3.4 下载模型权重
      • 3.5 启动 vLLM 推理服务
      • 3.6 验证服务
    • 四、生产环境优化
      • 4.1 使用 systemd 管理服务
      • 4.2 Nginx 反向代理 + 限流
      • 4.3 监控指标
    • 五、成本估算
    • 六、和 Forge 平台的结合思路
    • 七、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档