本文档记录了使用魔搭社区 ModelScope 平台,从零开始在本地部署 Qwen3-4B 大语言模型的完整过程,包括环境配置、模型下载、加载运行以及遇到的问题和解决方案。 项目配置操作系统Windows 10Python 版本3.11.9显卡NVIDIA GeForce RTX 3060 (12GB 显存)CUDA 版本12.8模型Qwen3-4B (通义千问 3-4B) /models/Qwen3-4B 说明: d:\wwwroot\modelscope 是本教程的示例路径,请替换成你自己的项目目录。 参数说明:--model Qwen/Qwen3-4B → 指定要下载的模型--local_dir . 到这里你已经掌握了基于 ModelScope 本地部署 Qwen3-4B 大语言模型的完整流程。
01 安装及测试过程 基于 FlagOS 系统软件栈的跨芯能力,众智 FlagOS 社区把 Qwen3-4B 适配至多款GPU硬件。 以下内容重点介绍如何部署与配置 FlagOS 版 Qwen3-4B的过程,仅用于复现实验结果,不影响对 Agent 能力的判断。 以 ModelScope为例,下载模型权重 pip install modelscope modelscope download --model Qwen/Qwen3-4B --local_dir /share /Qwen3-4B b.点击【部署当前镜像】获取镜像拉取命令,从 HAI 社区拉取镜像 docker pull haihub.cn/baai/flagrelease_hygon_qwen3:v1.0.0
(摘自官方文档)前言本教程基于魔搭社区(ModelScope)平台,详细讲解如何使用 Qwen3-4B 模型进行诗词生成任务的 LoRA 微调训练。 环境要求:Python 3.9+CUDA 支持的 GPU (推荐 8GB+ 显存)Windows/Linux 系统 本文档为进阶教程,请先参考文档 从零开始:基于 ModelScope 本地部署 Qwen3 -4B 大语言模型完全指南,完成 Qwen3-4B 大模型的本地部署,并掌握基础知识。 /datasets/chinese-poetry/ 目录重新运行脚本进行格式转换三、基础版模型训练3.1 脚本说明使用 train.py 对 Qwen3-4B 基础版模型进行 LoRA 微调。 到这里你已经掌握了基于 ModelScope 本地部署 Qwen3-4B 模型(含指令版)进行 LoRA 微调训练的完整流程。
2.1 基础计算公式 文本生成模型(LLM) FP16 半精度模式(推荐): 需要显存 ≈ 模型参数量(B) × 2 GB 示例: 模型 计算公式 需要显存 Qwen3-4B 4B INT8 量化模式: 需要显存 ≈ 模型参数量(B) × 1 GB 示例: 模型 计算公式 需要显存 Qwen3-4B (INT8) 4B × 1 4GB Llama3- 8B (INT8) 8B × 1 8GB INT4 量化模式: 需要显存 ≈ 模型参数量(B) × 0.5 GB 示例: 模型 计算公式 需要显存 Qwen3-4B (INT4 快速计算需要多少显存: 查看模型名称中的参数量(如 Qwen3-4B) 将参数量乘以 2(FP16)或 1(INT8) 加上 2GB 冗余 得到最低显存需求 示例: 目标模型 计算公式 Qwen2.5-1.5B, Phi-2 (2.7B) 仅支持小模型,体验受限 RTX 3060 12GB 3B-7B Qwen3
规则很简单:给 AI 一个基础模型(比如 Qwen3-4B)和一个目标任务(数学、编程、医疗问答等),再给一块 H100 GPU 和 10 个小时。
#在ModelScope社区有Unsloth的镜像,可以预先下载到本地来跳过从HuggingFace上下载fourbit_models=["unsloth/Qwen3-4B","unsloth/Phi- 官方实战代码仓库UnslothNotebooks:Fine-tuning&ContinualPre-trainingexamples.https://github.com/unslothai/notebooks/Qwen3 -4B基座模型(ModelScope)Qwen/Qwen3-4B-ModelScope.https://modelscope.cn/models/Qwen/Qwen3-4B一招金融数据集(YiZhao-FinDataSet
基于Qwen3-4B微调的模型在工具调用准确率(97.18%)、参数正确率(96.08%)和轨迹保真度(67.24%)上显著超越GPT-4o等前沿模型,尤其在GIS任务(F1=98.52%)和指数分析( 显著超越所有基线 • GIS任务:性能衰减明显,但OpenEarthAgent(55.77%)仍领先于GPT-4o(41.95%)和o4-mini(39.55%) • 图像任务:开源模型如Qwen2.5-7B、Qwen3
1.5B-Preview(RUC-AIBOX,2025)、DeepScaler-1.5B-Preview(Luo等人,2025)、FastCuRL-1.5B-Preview(Chen等人,2025);中等参数规模的Qwen3
举个直观例子:Qwen3-4B 模型运行 8K 上下文时,仅 KV Cache 就需约 2GB 内存;若上下文提升至 128K,内存占用将飙升至数十 GB,远超普通 GPU 和手机等边缘设备的承载能力。
训练客户端,无需配置复杂的分布式参数 training_client = service_client.create_lora_training_client( base_model="Qwen/Qwen3
图 3 MARSHAL 使用的游戏集合 三、核心实验 研究团队以 Qwen3-4B 为基线模型,在三款训练游戏(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中训练了两种类型的智能体
训练客户端,无需配置复杂的分布式参数 training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3
在八项推理基准测试上,基于 Qwen3-4B 训练的 NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。
打开你想训练的 notebook 比如你想用 GRPO 强化学习训练 Qwen3-4B: nb/Qwen3_(4B)-GRPO.ipynb 4.
这个时候尝试再启动一个4B的模型,这个模型也能够提供服务 VLLM_SERVER_DEV_MODE=1 vllm serve /models/Qwen3/Qwen3-4B/ --enable-sleep-mode
我们推出 Fathom-DeepResearch,该系统由两个专用模型构成:首先是 Fathom-Search-4B,这是一个基于 Qwen3-4B 训练的深度搜索 (DeepSearch) 模型,通过实时网络搜索与定向网页查询优化了基于证据的探索流程 其次是 Fathom-Synthesizer-4B,该模型基于 Qwen3-4B 训练,能将多轮深度搜索轨迹转化为结构化的高引用密度深度研究报告,实现信息的全面整合。
不主动上传到任何服务器; 敏感信息隔离:API密钥、项目敏感数据(如数据库配置),通过环境变量或本地加密存储,不写入配置文件或日志; 本地模型支持:通过LocalModelAdapter,支持本地模型(如Llama 3、Qwen3
尽管在推理和非推理模式下,Qwen3-4B通常能够获得最高分数,但SmolLM3在3B参数类中依然展现出了竞争力,特别是在数学推理和复杂问题解决任务中表现突出。 最后一个问题是:如何使用这个模型?
平衡性能与成本复杂推理claude-opus-4.6最强推理能力编程开发gpt-5.3-codex专为编程优化多模态任务gpt-4o多模态旗舰模型高速响应grok-41-fast极快的响应速度成本敏感qwen3
SmolLM3 持续超越其他 30 亿参数模型,并与包括 Qwen3-4B 和 Gemma3-4B 在内的更大模型取得了具有竞争力的性能。