本文档记录了使用魔搭社区 ModelScope 平台,从零开始在本地部署 Qwen3-4B 大语言模型的完整过程,包括环境配置、模型下载、加载运行以及遇到的问题和解决方案。 项目配置操作系统Windows 10Python 版本3.11.9显卡NVIDIA GeForce RTX 3060 (12GB 显存)CUDA 版本12.8模型Qwen3-4B (通义千问 3-4B) /models/Qwen3-4B 说明: d:\wwwroot\modelscope 是本教程的示例路径,请替换成你自己的项目目录。 参数说明:--model Qwen/Qwen3-4B → 指定要下载的模型--local_dir . 到这里你已经掌握了基于 ModelScope 本地部署 Qwen3-4B 大语言模型的完整流程。
01 安装及测试过程 基于 FlagOS 系统软件栈的跨芯能力,众智 FlagOS 社区把 Qwen3-4B 适配至多款GPU硬件。 以下内容重点介绍如何部署与配置 FlagOS 版 Qwen3-4B的过程,仅用于复现实验结果,不影响对 Agent 能力的判断。 以 ModelScope为例,下载模型权重 pip install modelscope modelscope download --model Qwen/Qwen3-4B --local_dir /share /Qwen3-4B b.点击【部署当前镜像】获取镜像拉取命令,从 HAI 社区拉取镜像 docker pull haihub.cn/baai/flagrelease_hygon_qwen3:v1.0.0
(摘自官方文档)前言本教程基于魔搭社区(ModelScope)平台,详细讲解如何使用 Qwen3-4B 模型进行诗词生成任务的 LoRA 微调训练。 环境要求:Python 3.9+CUDA 支持的 GPU (推荐 8GB+ 显存)Windows/Linux 系统 本文档为进阶教程,请先参考文档 从零开始:基于 ModelScope 本地部署 Qwen3 -4B 大语言模型完全指南,完成 Qwen3-4B 大模型的本地部署,并掌握基础知识。 /datasets/chinese-poetry/ 目录重新运行脚本进行格式转换三、基础版模型训练3.1 脚本说明使用 train.py 对 Qwen3-4B 基础版模型进行 LoRA 微调。 到这里你已经掌握了基于 ModelScope 本地部署 Qwen3-4B 模型(含指令版)进行 LoRA 微调训练的完整流程。
2.1 基础计算公式 文本生成模型(LLM) FP16 半精度模式(推荐): 需要显存 ≈ 模型参数量(B) × 2 GB 示例: 模型 计算公式 需要显存 Qwen3-4B 4B INT8 量化模式: 需要显存 ≈ 模型参数量(B) × 1 GB 示例: 模型 计算公式 需要显存 Qwen3-4B (INT8) 4B × 1 4GB Llama3- 8B (INT8) 8B × 1 8GB INT4 量化模式: 需要显存 ≈ 模型参数量(B) × 0.5 GB 示例: 模型 计算公式 需要显存 Qwen3-4B (INT4 快速计算需要多少显存: 查看模型名称中的参数量(如 Qwen3-4B) 将参数量乘以 2(FP16)或 1(INT8) 加上 2GB 冗余 得到最低显存需求 示例: 目标模型 计算公式 Qwen2.5-1.5B, Phi-2 (2.7B) 仅支持小模型,体验受限 RTX 3060 12GB 3B-7B Qwen3
在 Qwen3-4B 上,TraceLift 相比 Exec-only 在所有代码 benchmark 上都有提升。 模型包括 Qwen2.5-7B、Llama3.1-8B、Qwen3-4B;任务包括代码和数学;代码评测包括 HumanEval、HumanEval+、MBPP-full、LiveCodeBench;数学评测包括 最核心的结果包括: Code:Qwen3-4B 上 code micro avg. 从 65.88 提升到 68.32 Math:Qwen2.5-7B 上 math micro avg.
在工具选择与格式化任务中,基于MCP-Flow微调的Qwen3-4B模型在10个候选工具场景下达到99.2%的工具选择准确率,远超GPT-4o的88.6%和Claude-4-Sonnet的85.8%。 即使在更具挑战性的100工具场景中,Qwen3-4B仍保持81.7%的工具准确率,而GPT-4o和Claude-4-Sonnet分别降至72.3%和68.3%。 使用MCP-Flow生成初始函数调用后,Qwen3-4B的任务成功率从10.68%提升至21.36%,实现100%的相对提升。
从 SFT 到 RL:教 LLM 像生物学家一样推理 BioReason-Pro 构建在 Qwen3-4B 基础之上,深度整合了 ESM3 的残基级蛋白质嵌入、一个 GO 图编码器,以及包括目标物种、InterPro 团队采用了一个务实的方案:使用 GPT-5 为 133,492 个蛋白质(覆盖 3,135 个物种)生成合成推理轨迹,然后对 Qwen3-4B 进行 SFT 训练。这教会了模型如何生成生物学推理链。
4.工程验证与性能跃升:实验证明,该方法作为无缝增强插件,仅需经过短期的增量训练,即可将Qwen3-4B等模型的有效上下文长度从32k拔高至128k以上;同时在从零预训练赛道上,全面碾压了包括SWA、GLA ●结果分析: 经 RULER 基准测试(涵盖4k至256k长度),以Qwen3-4B为例,其在超长文本(64k及以上)表现出质的飞跃(64k准确率从74.3%飙升至78.7%,在128k下达到77.0% 结论: 实验充分证明,对于预训练模型,In-Place TTT能在保持短文本能力不降的情况下,实现128k甚至256k长文本解析能力的巨大飞跃(如Qwen3-4B在RULER-64k上从74.3%飙升至
规则很简单:给 AI 一个基础模型(比如 Qwen3-4B)和一个目标任务(数学、编程、医疗问答等),再给一块 H100 GPU 和 10 个小时。
#在ModelScope社区有Unsloth的镜像,可以预先下载到本地来跳过从HuggingFace上下载fourbit_models=["unsloth/Qwen3-4B","unsloth/Phi- 官方实战代码仓库UnslothNotebooks:Fine-tuning&ContinualPre-trainingexamples.https://github.com/unslothai/notebooks/Qwen3 -4B基座模型(ModelScope)Qwen/Qwen3-4B-ModelScope.https://modelscope.cn/models/Qwen/Qwen3-4B一招金融数据集(YiZhao-FinDataSet
此设置下使用的 OpenClaw 策略模型是 Qwen3-4B。本文将学习率设置为 ,KL 系数设置为 0,并在每收集 16 个训练样本后触发训练。 OpenClaw 策略模型同样是 Qwen3-4B,并使用了相同的优化设置。 GUI 和工具调用智能体的 PRM 分别是 Qwen3VL-8B-Thinking 和 Qwen3-4B。
基于Qwen3-4B微调的模型在工具调用准确率(97.18%)、参数正确率(96.08%)和轨迹保真度(67.24%)上显著超越GPT-4o等前沿模型,尤其在GIS任务(F1=98.52%)和指数分析( 显著超越所有基线 • GIS任务:性能衰减明显,但OpenEarthAgent(55.77%)仍领先于GPT-4o(41.95%)和o4-mini(39.55%) • 图像任务:开源模型如Qwen2.5-7B、Qwen3
1.5B-Preview(RUC-AIBOX,2025)、DeepScaler-1.5B-Preview(Luo等人,2025)、FastCuRL-1.5B-Preview(Chen等人,2025);中等参数规模的Qwen3
举个直观例子:Qwen3-4B 模型运行 8K 上下文时,仅 KV Cache 就需约 2GB 内存;若上下文提升至 128K,内存占用将飙升至数十 GB,远超普通 GPU 和手机等边缘设备的承载能力。
模型包括 Qwen3-4B、Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct,以及 Qwen2.5-32B-Instruct sanity check;后训练任务包括
训练客户端,无需配置复杂的分布式参数 training_client = service_client.create_lora_training_client( base_model="Qwen/Qwen3
图 3 MARSHAL 使用的游戏集合 三、核心实验 研究团队以 Qwen3-4B 为基线模型,在三款训练游戏(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中训练了两种类型的智能体
训练客户端,无需配置复杂的分布式参数 training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3
在八项推理基准测试上,基于 Qwen3-4B 训练的 NPR 实现了高达 24.5% 的性能提升和高达 4.6 倍的推理加速。
DDTree论文提到,纯attention机制的Qwen3-4B/8B/30B-MoE(A100/B200,BF16),比链式DFlash提升35–42%。