Mistral AI 刚刚在 NVIDIA GTC 2026 上发布了 Forge 平台和 Small 4 模型。Small 4 是一个 119B 参数的 MoE 模型,Apache 2.0 开源,每 token 只激活 6B 参数,性能对标 GPT-OSS 120B。本文将带你在腾讯云 GPU 云服务器上用 vLLM 完成从零到上线的全流程部署。
3 月 17 日,Mistral 在 NVIDIA GTC 上发布了 Forge——一个让企业在自有数据上构建定制 AI 模型的平台。核心能力包括:
早期合作伙伴包括 Ericsson、欧洲航天局、Reply(意大利咨询)等。
Mistral Small 4 是 Forge 平台的首发模型,也是本文部署的目标。关键参数:
参数项 | 值 |
|---|---|
总参数量 | 119B |
架构 | MoE(Mixture of Experts) |
专家数量 | 128 个专家,每 token 激活 4 个 |
活跃参数量 | 6B / token(含 embedding 约 8B) |
上下文窗口 | 256K |
多模态 | 文本 + 图像 |
许可证 | Apache 2.0 |
Small 4 统一了四个前代模型的能力:
亮点功能:支持 reasoning_effort 参数,按请求动态调整推理深度:
# 快速响应,等同于 Small 3.2
response = client.chat(model="mistral-small-4", reasoning_effort="none", ...)
# 深度推理,逐步思考
response = client.chat(model="mistral-small-4", reasoning_effort="high", ...)基准测试 | Small 4 | GPT-OSS 120B | 备注 |
|---|---|---|---|
AA LCR | 0.72 (1.6K chars) | 对标 | Qwen 需 5.8K-6.1K chars |
LiveCodeBench | 超越 | 基线 | 输出量少 20% |
AIME 2025 | 持平 | 基线 | 数学推理 |
对比 Small 3 | 延迟 -40%,吞吐 3x | — | 同等硬件 |
在腾讯云上部署 Small 4 推理服务的架构如下:
┌──────────────────────────────────────────────────────────┐
│ 客户端 / API 调用 │
└─────────────────────────┬────────────────────────────────┘
│ HTTPS
▼
┌───────────────────────┐
│ 腾讯云 CLB 负载均衡 │
└───────────┬───────────┘
│
┌───────────▼───────────┐
│ Nginx 反向代理层 │
│ (API Key 鉴权/限流) │
└───────────┬───────────┘
│
┌─────────────┼─────────────┐
▼ ▼ ▼
┌────────────┐ ┌────────────┐ ┌────────────┐
│ vLLM 实例1 │ │ vLLM 实例2 │ │ vLLM 实例3 │
│ (2×A100) │ │ (2×A100) │ │ (2×A100) │
└──────┬─────┘ └──────┬─────┘ └──────┬─────┘
│ │ │
└──────────────┼──────────────┘
│
┌──────────▼──────────┐
│ 腾讯云 COS 存储 │
│ (模型权重 + LoRA) │
└─────────────────────┘组件说明:
组件 | 腾讯云产品 | 规格建议 |
|---|---|---|
GPU 推理节点 | GPU 云服务器 GN10Xp | 2×A100 80GB / 节点 |
负载均衡 | CLB | 四层 TCP 转发 |
模型存储 | COS 对象存储 | 标准存储,就近地域 |
容器编排(可选) | TKE 容器服务 | GPU 节点池 |
监控 | 云监控 + Prometheus | GPU 利用率、推理延迟 |
在腾讯云控制台创建实例:
# SSH 登录实例后,验证 GPU
nvidia-smi
# 应显示 2 块 A100 80GB# 更新系统
sudo apt update && sudo apt upgrade -y
# 安装 CUDA 12.4(如未预装)
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run
sudo sh cuda_12.4.0_550.54.14_linux.run --silent --toolkit
# 安装 Python 3.11 和 pip
sudo apt install python3.11 python3.11-venv python3-pip -y
# 创建虚拟环境
python3.11 -m venv ~/mistral-env
source ~/mistral-env/bin/activate# 安装 vLLM(确保版本 >= 0.17.0,支持 Small 4)
pip install vllm>=0.17.0
# 安装 Hugging Face CLI(下载模型用)
pip install huggingface_hub[cli]
# 登录 Hugging Face(需要 token)
huggingface-cli loginSmall 4 模型约 240GB(FP16),建议先下载到腾讯云 COS 再拉取到本地:
# 方法一:直接从 Hugging Face 下载到本地数据盘
mkdir -p /data/models
huggingface-cli download mistralai/Mistral-Small-4-119B-2603 \
--local-dir /data/models/mistral-small-4 \
--local-dir-use-symlinks False
# 方法二:FP8 量化版本(推荐,显存占用减半)
huggingface-cli download mistralai/Mistral-Small-4-119B-2603-FP8 \
--local-dir /data/models/mistral-small-4-fp8 \
--local-dir-use-symlinks False提示:FP8 量化版本约 120GB,2×A100 80GB 即可运行。FP16 全精度需要 4×A100。对于大多数场景,FP8 的精度损失可以忽略。
# FP8 量化版本启动(2×A100 80GB)
vllm serve /data/models/mistral-small-4-fp8 \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--dtype auto \
--trust-remote-code \
--api-key your-secret-key-here参数说明:
参数 | 作用 | 建议值 |
|---|---|---|
--tensor-parallel-size | GPU 张量并行数 | 与 GPU 数量一致 |
--max-model-len | 最大上下文长度 | 32768(省显存)或 131072 |
--gpu-memory-utilization | GPU 显存利用率 | 0.85-0.92 |
--api-key | API 密钥 | 自定义,用于鉴权 |
启动成功后,终端输出:
INFO: Started server process
INFO: Waiting for application startup
INFO: Application startup complete
INFO: Uvicorn running on http://0.0.0.0:8000vLLM 默认提供 OpenAI 兼容 API,可以直接用 curl 或 Python 客户端调用:
# 健康检查
curl http://localhost:8000/health
# 查看可用模型
curl http://localhost:8000/v1/models \
-H "Authorization: Bearer your-secret-key-here"# Python 客户端调用
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="your-secret-key-here"
)
# 基础对话
response = client.chat.completions.create(
model="/data/models/mistral-small-4-fp8",
messages=[
{"role": "user", "content": "用 Python 写一个快速排序,要求支持泛型"}
],
temperature=0.7,
max_tokens=2048
)
print(response.choices[0].message.content)# 利用 reasoning_effort 参数进行深度推理
response = client.chat.completions.create(
model="/data/models/mistral-small-4-fp8",
messages=[
{"role": "user", "content": "分析以下系统的瓶颈并给出优化方案:\n一个日均1000万请求的推荐系统..."}
],
extra_body={"reasoning_effort": "high"}, # 深度推理模式
temperature=0.3,
max_tokens=4096
)# 创建 systemd service 文件
sudo tee /etc/systemd/system/vllm-mistral.service << 'EOF'
[Unit]
Description=vLLM Mistral Small 4 Inference Service
After=network.target
[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu
Environment="PATH=/home/ubuntu/mistral-env/bin:/usr/local/bin:/usr/bin"
ExecStart=/home/ubuntu/mistral-env/bin/vllm serve /data/models/mistral-small-4-fp8 \
--host 0.0.0.0 --port 8000 \
--tensor-parallel-size 2 \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--api-key your-secret-key-here
Restart=on-failure
RestartSec=10
[Install]
WantedBy=multi-user.target
EOF
sudo systemctl daemon-reload
sudo systemctl enable vllm-mistral
sudo systemctl start vllm-mistral
# 查看日志
sudo journalctl -u vllm-mistral -f# /etc/nginx/conf.d/vllm.conf
upstream vllm_backend {
server 127.0.0.1:8000;
keepalive 32;
}
limit_req_zone $binary_remote_addr zone=api_limit:10m rate=10r/s;
server {
listen 443 ssl;
server_name your-domain.com;
ssl_certificate /etc/nginx/ssl/cert.pem;
ssl_certificate_key /etc/nginx/ssl/key.pem;
location /v1/ {
limit_req zone=api_limit burst=20 nodelay;
proxy_pass http://vllm_backend;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_read_timeout 300s; # 长推理需要更长超时
proxy_buffering off; # 支持流式输出
}
}vLLM 内置 Prometheus metrics,端口 8000/metrics,建议监控:
指标 | 含义 | 告警阈值 |
|---|---|---|
vllm:num_requests_running | 当前并发请求数 | > 队列深度的 80% |
vllm:gpu_cache_usage_perc | KV Cache 使用率 | > 95% |
vllm:avg_generation_throughput | 生成吞吐量(tokens/s) | < 基线的 60% |
nvidia_gpu_utilization | GPU 利用率 | 持续 < 30%(资源浪费) |
# 快速检查 metrics
curl http://localhost:8000/metrics | grep vllm以腾讯云 GPU 云服务器按量计费为参考:
配置方案 | GPU | 月费用(估算) | 适用场景 |
|---|---|---|---|
入门方案 | 2×A100 80GB | ≈ ¥25,000/月 | 开发测试、低并发 |
生产方案 | 2×节点 × 2×A100 | ≈ ¥50,000/月 | 中等并发、高可用 |
弹性方案 | TKE + GPU 节点池 | 按需弹性 | 波动流量、成本敏感 |
省钱提示:使用腾讯云竞价实例(Spot Instance)可节省 50-70% 成本,适合非实时推理任务。预留实例享受更大折扣。
如果你不止想部署推理,还想用企业数据微调定制模型,可以参考 Forge 的工作流:
企业数据 → 数据清洗/合成 → 基于 Small 4 微调 → 评估 → 部署到推理集群
│ │
└──────── Forge 平台管理全流程 ──────────────────────────┘目前 Forge 处于早期合作阶段,企业可以:
LoRA 微调加载示例:
# vLLM 支持在启动时指定 LoRA adapter
vllm serve /data/models/mistral-small-4-fp8 \
--host 0.0.0.0 --port 8000 \
--tensor-parallel-size 2 \
--enable-lora \
--lora-modules my-custom-model=/data/lora/my-adapter# 调用时指定 LoRA 模型
response = client.chat.completions.create(
model="my-custom-model", # 使用自定义 LoRA adapter
messages=[{"role": "user", "content": "..."}]
)Mistral Small 4 是目前开源 MoE 模型中性价比最高的选择之一——119B 总参数但每 token 只激活 6B,2 块 A100 即可跑 FP8 版本,性能对标百亿级闭源模型。配合 Forge 平台的企业定制能力,给了中小团队一条"先部署、再微调、最后定制"的渐进式路径。
本文覆盖的技术栈:
层级 | 技术选型 |
|---|---|
模型 | Mistral Small 4 119B(FP8) |
推理框架 | vLLM ≥ 0.17.0 |
GPU | 腾讯云 GN10Xp(2×A100 80GB) |
服务管理 | systemd |
反向代理 | Nginx + SSL + 限流 |
监控 | Prometheus + 云监控 |
存储 | 腾讯云 COS |
如果你在部署过程中遇到显存不足、推理延迟异常等问题,欢迎在评论区交流。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。