搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
量化大模型，本地部署，效果不打折
关键成果速览 Unsloth 团队在对 DeepSeek-V3.1 进行动态量化后，得出了以下令人振奋的结果： 1-bit Unsloth 动态 GGUF: 体积: 将 DeepSeek-V3.1 从普遍优势: Unsloth 的动态 GGUF 在所有测试中，其表现始终优于其他非 Unsloth 的 imatrix GGUF 模型。值得注意的是，其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么无法加载，要么产生乱码，这凸显了 Unsloth 动态量化方法的稳定性和有效性。 Aider 基准测试图表思考模式 (Thinking Mode) 非思考模式 (Non-Thinking Mode) Unsloth 动态量化技术揭秘 Unsloth 动态量化的核心思想是 “选择性量化 /unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot
34110编辑于 2025-11-29
来自专栏机器学习与统计学
微调大模型，门槛低到离谱
Unsloth 是什么？最后： pip install unsloth 还有 Docker 方案，完全零配置： docker pull unsloth/unsloth 更新也是一行： pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo 用 VS Code + Colab 免费微调这是我觉得 Unsloth 最「降维打击」的功能 /unsloth.ai/docs 开源了！官方 notebook 列表: https://unsloth.ai/docs/get-started/unsloth-notebooks
34710编辑于 2026-03-02
来自专栏人工智能应用
Unsloth实战指南：3倍加速大模型训练，单卡轻松玩转70B参数
python=3.10 -y conda activate unsloth_env # 安装核心库（自动匹配CUDA版本） pip install "unsloth[colab-new] @ git from unsloth import is_unsloth_available print(f"Unsloth可用状态: {is_unsloth_available()}") # 输出显存优化报告 import unsloth; unsloth.report_memory_optimization() 二、模型加载：4行代码启动百亿大模型 2.1 基础加载模式 from unsloth import 启用kernel融合 export UNSLOTH_KERNEL_FUSION_MODE=aggressive # 3. ") Unsloth正以惊人的速度改变大模型训练的游戏规则。
1.1K10编辑于 2025-08-01
来自专栏机器学习与统计学
Qwen3.5 本地部署
听起来吓人，但实际上，得益于 Unsloth 的 Dynamic 2.0 量化技术，192GB 内存的 Mac 就能跑 3-bit 版本，256GB 的 Mac 就能跑 4-bit 版本。 Unsloth Dynamic 2.0 量化 Unsloth 其实是第一时间就发布了 Qwen3.5-397B-A17B 的 GGUF 格式文件（Qwen 给了 Unsloth day zero 访问权限 -local-dir unsloth/Qwen3.5-397B-A17B-GGUF \ --include "*UD-Q2_K_XL*" 3. 思考模式（适合复杂推理、数学、编程）： export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF" . 虽然 397B 的模型跑起来还是需要不小的投入，但 Unsloth Dynamic 2.0 量化 + MoE 架构的稀疏激活，已经把门槛拉到了"一台高配 Mac"的水平。
1.9K10编辑于 2026-03-02
来自专栏人工智能应用
Unsloth框架：撕裂大模型训练的算力铁幕，开启高效训练新纪元
将AllReduce拆分为树状流水线，利用率达89% 三、性能核爆：数据背后的真相在8×A100集群上的实测结果令人震撼：指标 Llama2-7B Llama2-70B 单步耗时 58ms (Unsloth 四、实战指南：从入门到精通 4.1 极速微调实战 from unsloth import FastLanguageModel import torch.optim as optim # 加载预训练模型（自动应用优化） model, tokenizer = FastLanguageModel.from_pretrained( "unsloth/llama2-7b-bnb-4bit", Unsloth的实测数据证明：通过系统级创新，我们能在不增加硬件的前提下将训练效率提升3.6倍。一位使用Unsloth的AI初创公司CTO感慨：“原本需要200张A100的微调任务，现在56张卡就能完成，这改变了我们的产品路线图”。
56410编辑于 2025-08-01
来自专栏Datawhale专栏
单卡复现 DeepSeek R1 Zero教程来了！
答案就在于我们引入了 Unsloth + LoRA。 Unsloth GitHub：https://github.com/unslothai/unsloth 环境搭建安装 Unsloth 环境搭建部分在之前的公众号文章中已有详细说明，这里只需在原有基础上补充安装 Unsloth 及指定版本的 trl 库即可。　具体命令如下： # 安装 unsloth 和 vllm pip install unsloth vllm # 安装指定版本的 trl（兼容 unsloth） pip install trl==0.15.0 python train_Datawhale-R1_unsloth.py --config Datawhale-R1_unsloth.yaml 训练代码优化解读基于 Unsloth 框架，我们对原始代码做了简化和优化
95410编辑于 2025-02-19
来自专栏机器学习与统计学
20GB 内存，本地运行 DeepSeek-R1-0528
Unsloth 文档详细说明了量化流程（https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs），并支持GGUF格式（如`DeepSeek-R1 Unsloth建议搭配64GB RAM 以提升性能。 Unsloth 澄清这些是官方 8B 蒸馏模型，适合低配设备。 8B 模型在编码任务中表现优异，但缺乏网页访问和 PDF 处理功能，需依赖外部框架。 /DeepSeek-R1-0528-GGUF [3] 完整运行指南: https://docs.unsloth.ai/basics/deepseek-r1-0528 [4] https://docs.unsloth.ai /basics/unsloth-dynamic-2.0-ggufs），并支持GGUF格式（如DeepSeek-R1-0528-GGUF:TQ1_0）: https://docs.unsloth.ai/basics
1.4K10编辑于 2025-06-26
来自专栏机器之心
从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南
选自 unsloth.ai 作者：Unsloth Team 强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。原文地址：https://docs.unsloth.ai/basics/reinforcement-learning-guide 开源项目：https://github.com/unslothai/unsloth Unsloth 能为强化学习提供什么？这里有一些示例笔记本： https://docs.unsloth.ai/get-started/unsloth-notebooks#grpo-reasoning-notebooks 基础知识/技巧 Unsloth -2025 通过 Unsloth 构建的高级 GRPO 笔记本。
1.2K10编辑于 2025-06-23
来自专栏机器学习与统计学
Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南，微调教程
为什么要关注 Unsloth 的 GGUF？ Unsloth 提供了一堆量化版本，初学者可能看花眼。推荐采样参数 Unsloth 和 Qwen 官方都给了推荐参数进阶：用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾？先装好 Unsloth： pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo 然后是一个最简的 SFT 相关链接： Unsloth 本地部署指南：https://unsloth.ai/docs/models/qwen3.5 Unsloth 微调指南：https://unsloth.ai/docs/models
8.8K241编辑于 2026-03-05
来自专栏新智元
「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍
而Unsloth将VRAM减少了90%，降至仅54.3GB。减少长上下文90%VRAM 和使用Flash Attention 2的标准实现相比，Unsloth使用多种技巧，巧妙地把GRPO的VRAM使用量减少了90%多！在20K的上下文长度下，每个提示生成8次，Unsloth在Llama-3.1-8B模型上仅使用54.3GB的VRAM，而标准实现需要510.8GB（Unsloth减少了90%）。 Unsloth将长上下文GRPO的内存使用量削减了8倍，因此对于20K的上下文长度，只需要额外的9.8GBVRAM！还需要以16位格式存储KV缓存。在所有实现中，还利用了logsumexp技巧： Unsloth高效GRPO算法但没想到华人工程师Horace He的线性交叉熵实现，带给unsloth灵感并成功应用于GRPO！
35600编辑于 2025-03-11
来自专栏机器学习与统计学
Qwen3.5本地部署终极指南，Qwen3.5-27B
和 vLLM 或者 SGLang 部署的在线 API 不同，这里 Unsloth 提供的是量化后本地跑的方案，适合没有 H100 集群的普通玩家。 Unsloth 量化后精度损失有多少？这就是 Unsloth Dynamic 2.0 量化技术的杀疯了之处——重要的层会被自动提升到 8-bit 甚至 16-bit，而不是一刀切全部压缩。你的设备能跑哪个？一键运行（Thinking 模式） # 精确编码任务用这个（temperature=0.6，更稳定） export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" 非思考模式（更快响应） # 不需要深度推理时，关掉 thinking 模式 export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" . /Qwen3.5-35B-A3B-GGUF \ --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \ --include "*MXFP4_MOE*" # 如果想下
8.4K41编辑于 2026-03-02
来自专栏大模型本地部署
Qwen3.5本地部署
0.简介本教程参考了Unsloth上有关Qwen3.5部署的教程，但是国内由于网络等原因，部署的时候会遇到一系列问题，因此以下给出逐一解决的方法。后续会持续更新Qwen3.5其他系列模型。根据你的用例，遵循下面的特定命令之一：1.2.2.1.思考模式精确编码任务：exportLLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF". 35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.6\--top-p0.95\--top-k20\--min-p0.00通用任务：exportLLAMA_CACHE="unsloth K_XL\--ctx-size16384\--temp1.0\--top-p0.95\--top-k20\--min-p0.001.2.2.2.非思考模式通用任务：exportLLAMA_CACHE="unsloth top-p0.8\--top-k20\--min-p0.00\--chat-template-kwargs'{"enable_thinking":false}'推理任务：exportLLAMA_CACHE="unsloth
1.2K00编辑于 2026-03-06
来自专栏架构驿站
你所不了解的常用开源 LLM 微调库
—02 — 常见的四大主流开源库一览详细解析 1、Unsloth Unsloth 的出现，可以说是近年来 LLM 微调效率领域最引人注目的突破。 Unsloth 之所以备受关注，不仅仅是因为那令人难以置信的原始速度，更在于它真正推动了技术的平民化。 Unsloth 项目地址如下：https://github.com/unslothai/unsloth 2、LLaMA-Factory LaMA Factory，或许是目前业界为 LLM 它并非要与 Unsloth 这类专用工具竞争，而是将它们作为“加速算子”无缝整合进来。用户只需通过简单的配置，就能启用这些加速功能。尤其值得一提的是，LLaMA Factory 与 Unsloth 的深度集成，将 Unsloth 那惊人的速度提升，与自己更友好的操作界面完美结合。
65810编辑于 2025-08-05
来自专栏机器学习与统计学
机器学习周刊第4期：基于ChatGPT API的Android语音助手
必读论文:检索增强生成技术综述 6、Apple 多模态大型语言模型 Ferret 7、免费ChatGPT API安卓端语音助手 8、每日数学 9、WhisperLive:实时Whisper实现 10、Unsloth 10、Unsloth 地址：https://github.com/unslothai/unsloth 训练大语言模型往往会消耗大量算力和时间，Unsloth开源的这个项目可以加快训练速度和效率。开源版本的训练速度提高了 5 倍，或者您可以查看 Unsloth Pro 和 Max 代码路径，以获得高达 30 倍的训练速度提升！
54611编辑于 2024-01-04
如何赋予大语言模型以“灵魂”？深度解析增量预训练（Continual Pre-training）逻辑与实战代码
这里我特别推荐大家去UnslothNotebooks上找相应的案例，Unsloth官方提供了几乎目前所有开源模型的基于Unsloth框架训练的colab笔记本，而且Unsloth自身也是一个特别优秀的框架 #Unsloth支持的4bit预量化模型，模型大小小4倍且能防止显存溢出(OOM)。 #在ModelScope社区有Unsloth的镜像，可以预先下载到本地来跳过从HuggingFace上下载fourbit_models=["unsloth/Qwen3-4B","unsloth/Phi- 4-mini-instruct","unsloth/gemma-3-12b-it",]model,tokenizer=FastLanguageModel.from_pretrained(model_name ="none",#偏置：支持任意值，但"none"是经过优化的use_gradient_checkpointing="unsloth",#使用梯度检查点：设置为"unsloth"以支持极长上下文并节省显存
35120编辑于 2026-01-25
来自专栏机器学习与统计学
DeepSeek 更新了，我更期待量化版
不过这要等到 unsloth 放出 Terminius 量化版模型之后了，我还是蛮强期待的。 unsloth 之前的V3.1量化版号称： 1 位 Dynamic 量化 DeepSeek-V3.1 从 671GB 压缩至 192GB（体积减少 75%），其无思考模式性能超越 GPT-4.1（2025 3 位 Unsloth DeepSeek-V3.1（思考模式）GGUF：性能超越 Claude-4-Opus（思考模式）。最后，V4 国庆节会来吗？以往惯例，每逢佳节，DeepSeek必发新模型。
37510编辑于 2025-10-11
来自专栏AI大模型应用开发炼丹房
四代微调框架深度拆解：24GB显存撬动700B参数的技术革命
Unsloth：个人开发者的极速实验利器技术内核：定制Triton内核：CUDA操作优化，相比HuggingFace提速2倍动态显存管理：QLoRA训练时显存占用降低80%（实测RTX 3090 可微调Llama2-13B）多模态支持：扩展至Whisper语音模型、Stable Diffusion典型工作流：from unsloth import FastLanguageModelmodel , tokenizer = FastLanguageModel.from_pretrained("unsloth/llama-2-7b")model = FastLanguageModel.get_peft_model ⚡中等中型实验室LlamaFactoryV10013B Full⚡⚡极易教育/产品经理DeepSpeedA100 * 81T+⚡⚡⚡⚡陡峭超算中心四、选型决策树组合策略推荐：快速原型：Unsloth Unsloth (42k stars)(https://github.com/unslothai/unsloth)Unsloth 让微调变得又快又简单，只需一个 Colab 或 Kaggle 笔记本，就能把中端
92510编辑于 2025-08-17
来自专栏开源服务指南
AudioGPT 语音技术全覆盖：语音识别、增强、分离、风格迁移等 | 开源日报 No.114
该项目的关键特点和核心优势包括：通过适配器实现跨位置查看和修改文件支持 SSH 适配器，可在远程服务器上浏览文件提供丰富的 API 用于执行不同操作 unslothai/unsloth[2] Stars 支持 4bit and 16bit LoRA finetuning 在 260 小时内完全在本地训练 Slim Orca 模型 (原来需要 1301 小时) 该开源版本可以实现 5 倍加速训练或者选择 Unsloth 可通过 Github 提交修复程序相关链接 [1] stevearc/oil.nvim: https://github.com/stevearc/oil.nvim [2] unslothai/unsloth : https://github.com/unslothai/unsloth [3] ThePrimeagen/harpoon: https://github.com/ThePrimeagen/harpoon
60410编辑于 2023-12-15
来自专栏《Cloud Studio》
2026了，为什么高手还在钻研 Llama 3.1？
• Unsloth 与 Llama 3.1： Unsloth 当年对梯度检查点和显存的极致优化，是理解如今高效训练框架的基石。 • ORPO 与 DPO：现在的对齐算法大多是 DPO 的变体。随着 Python 版本迭代、CUDA 升级、PyTorch 废弃旧接口，想在 2026 年的本地电脑上完美复现 Llama 3 时代的 Unsloth 环境，简直是 “依赖地狱”。在课程创建时就已经把所有的环境系统都适配成功，所以CloudStudio 都能为你一键拉起适配 Llama 3.1 和 Unsloth 旧版本的特定运行环境。
16510编辑于 2026-01-14
来自专栏机器学习与统计学
MiniMax M2.1 量化版来了
tool-call-parser minimax_m2 \ --reasoning-parser minimax_m2_append_think 推荐几个主流且稳定的量化版吧，本地跑起来成本低很多 Unsloth 首先登场的是大模型量化界翘楚：unsloth 从 1-bit 到 16-bit 都有，llama.cpp 运行，缺点是慢 https://huggingface.co/unsloth/MiniMax-M2.1
1.7K10编辑于 2026-01-05

第 2 页第 3 页第 4 页

点击加载更多

量化大模型，本地部署，效果不打折

微调大模型，门槛低到离谱

Unsloth实战指南：3倍加速大模型训练，单卡轻松玩转70B参数

Qwen3.5 本地部署

Unsloth框架：撕裂大模型训练的算力铁幕，开启高效训练新纪元

单卡复现 DeepSeek R1 Zero教程来了！

20GB 内存，本地运行 DeepSeek-R1-0528

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南，微调教程

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

Qwen3.5本地部署终极指南，Qwen3.5-27B

Qwen3.5本地部署

你所不了解的常用开源 LLM 微调库

机器学习周刊第4期：基于ChatGPT API的Android语音助手

如何赋予大语言模型以“灵魂”？深度解析增量预训练（Continual Pre-training）逻辑与实战代码

DeepSeek 更新了，我更期待量化版

四代微调框架深度拆解：24GB显存撬动700B参数的技术革命

AudioGPT 语音技术全覆盖：语音识别、增强、分离、风格迁移等 | 开源日报 No.114

2026了，为什么高手还在钻研 Llama 3.1？

MiniMax M2.1 量化版来了

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

量化大模型，本地部署，效果不打折

微调大模型，门槛低到离谱

Unsloth实战指南：3倍加速大模型训练，单卡轻松玩转70B参数

Qwen3.5 本地部署

Unsloth框架：撕裂大模型训练的算力铁幕，开启高效训练新纪元

单卡复现 DeepSeek R1 Zero教程来了！

20GB 内存，本地运行 DeepSeek-R1-0528

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南，微调教程

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

Qwen3.5本地部署终极指南，Qwen3.5-27B

Qwen3.5本地部署

你所不了解的常用开源 LLM 微调库

机器学习周刊 第4期：基于ChatGPT API的Android语音助手

如何赋予大语言模型以“灵魂”？深度解析增量预训练（Continual Pre-training）逻辑与实战代码

DeepSeek 更新了，我更期待量化版

四代微调框架深度拆解：24GB显存撬动700B参数的技术革命

AudioGPT 语音技术全覆盖：语音识别、增强、分离、风格迁移等 | 开源日报 No.114

2026了，为什么高手还在钻研 Llama 3.1？

MiniMax M2.1 量化版来了

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

机器学习周刊第4期：基于ChatGPT API的Android语音助手