首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与统计学

    量化大模型,本地部署,效果不打折

    关键成果速览 Unsloth 团队在对 DeepSeek-V3.1 进行动态量化后,得出了以下令人振奋的结果: 1-bit Unsloth 动态 GGUF: 体积: 将 DeepSeek-V3.1 从 普遍优势: Unsloth 的动态 GGUF 在所有测试中,其表现始终优于其他非 Unsloth 的 imatrix GGUF 模型。 值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么无法加载,要么产生乱码,这凸显了 Unsloth 动态量化方法的稳定性和有效性。 Aider 基准测试图表 思考模式 (Thinking Mode) 非思考模式 (Non-Thinking Mode) Unsloth 动态量化技术揭秘 Unsloth 动态量化的核心思想是 “选择性量化 /unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot

    34110编辑于 2025-11-29
  • 来自专栏机器学习与统计学

    微调大模型,门槛低到离谱

    Unsloth 是什么? 最后: pip install unsloth 还有 Docker 方案,完全零配置: docker pull unsloth/unsloth 更新也是一行: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo 用 VS Code + Colab 免费微调 这是我觉得 Unsloth 最「降维打击」的功能 /unsloth.ai/docs 开源了! 官方 notebook 列表: https://unsloth.ai/docs/get-started/unsloth-notebooks

    34710编辑于 2026-03-02
  • 来自专栏人工智能应用

    Unsloth实战指南:3倍加速大模型训练,单卡轻松玩转70B参数

    python=3.10 -y conda activate unsloth_env # 安装核心库(自动匹配CUDA版本) pip install "unsloth[colab-new] @ git from unsloth import is_unsloth_available print(f"Unsloth可用状态: {is_unsloth_available()}") # 输出显存优化报告 import unsloth; unsloth.report_memory_optimization() 二、模型加载:4行代码启动百亿大模型 2.1 基础加载模式 from unsloth import 启用kernel融合 export UNSLOTH_KERNEL_FUSION_MODE=aggressive # 3. ") Unsloth正以惊人的速度改变大模型训练的游戏规则。

    1.1K10编辑于 2025-08-01
  • 来自专栏机器学习与统计学

    Qwen3.5 本地部署

    听起来吓人,但实际上,得益于 Unsloth 的 Dynamic 2.0 量化技术,192GB 内存的 Mac 就能跑 3-bit 版本,256GB 的 Mac 就能跑 4-bit 版本。 Unsloth Dynamic 2.0 量化 Unsloth 其实是第一时间就发布了 Qwen3.5-397B-A17B 的 GGUF 格式文件(Qwen 给了 Unsloth day zero 访问权限 -local-dir unsloth/Qwen3.5-397B-A17B-GGUF \ --include "*UD-Q2_K_XL*" 3. 思考模式(适合复杂推理、数学、编程): export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF" . 虽然 397B 的模型跑起来还是需要不小的投入,但 Unsloth Dynamic 2.0 量化 + MoE 架构的稀疏激活,已经把门槛拉到了"一台高配 Mac"的水平。

    1.9K10编辑于 2026-03-02
  • 来自专栏人工智能应用

    Unsloth框架:撕裂大模型训练的算力铁幕,开启高效训练新纪元

    将AllReduce拆分为树状流水线,利用率达89% 三、性能核爆:数据背后的真相 在8×A100集群上的实测结果令人震撼: 指标 Llama2-7B Llama2-70B 单步耗时 58ms (Unsloth 四、实战指南:从入门到精通 4.1 极速微调实战 from unsloth import FastLanguageModel import torch.optim as optim # 加载预训练模型 (自动应用优化) model, tokenizer = FastLanguageModel.from_pretrained( "unsloth/llama2-7b-bnb-4bit", Unsloth的实测数据证明:通过系统级创新,我们能在不增加硬件的前提下将训练效率提升3.6倍。 一位使用Unsloth的AI初创公司CTO感慨:“原本需要200张A100的微调任务,现在56张卡就能完成,这改变了我们的产品路线图”。

    56410编辑于 2025-08-01
  • 来自专栏Datawhale专栏

    单卡复现 DeepSeek R1 Zero教程来了!

    答案就在于我们引入了 Unsloth + LoRA。 Unsloth GitHub:https://github.com/unslothai/unsloth 环境搭建 安装 Unsloth 环境搭建部分在之前的公众号文章中已有详细说明,这里只需在原有基础上补充安装 Unsloth 及指定版本的 trl 库即可。  具体命令如下: # 安装 unsloth 和 vllm pip install unsloth vllm # 安装指定版本的 trl(兼容 unsloth) pip install trl==0.15.0 python train_Datawhale-R1_unsloth.py --config Datawhale-R1_unsloth.yaml 训练代码优化解读 基于 Unsloth 框架,我们对原始代码做了简化和优化

    95410编辑于 2025-02-19
  • 来自专栏机器学习与统计学

    20GB 内存,本地运行 DeepSeek-R1-0528

    Unsloth 文档详细说明了量化流程(https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs),并支持GGUF格式(如`DeepSeek-R1 Unsloth建议搭配64GB RAM 以提升性能。 Unsloth 澄清这些是官方 8B 蒸馏模型,适合低配设备。 8B 模型在编码任务中表现优异,但缺乏网页访问和 PDF 处理功能,需依赖外部框架。 /DeepSeek-R1-0528-GGUF [3]  完整运行指南: https://docs.unsloth.ai/basics/deepseek-r1-0528 [4]  https://docs.unsloth.ai /basics/unsloth-dynamic-2.0-ggufs),并支持GGUF格式(如DeepSeek-R1-0528-GGUF:TQ1_0): https://docs.unsloth.ai/basics

    1.4K10编辑于 2025-06-26
  • 来自专栏机器之心

    从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

    选自 unsloth.ai 作者:Unsloth Team 强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。 原文地址:https://docs.unsloth.ai/basics/reinforcement-learning-guide 开源项目:https://github.com/unslothai/unsloth Unsloth 能为强化学习提供什么? 这里有一些示例笔记本: https://docs.unsloth.ai/get-started/unsloth-notebooks#grpo-reasoning-notebooks 基础知识/技巧 Unsloth -2025 通过 Unsloth 构建的高级 GRPO 笔记本。

    1.2K10编辑于 2025-06-23
  • 来自专栏机器学习与统计学

    Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南,微调教程

    为什么要关注 Unsloth 的 GGUF? Unsloth 提供了一堆量化版本,初学者可能看花眼。 推荐采样参数 Unsloth 和 Qwen 官方都给了推荐参数 进阶:用 Unsloth 免费微调 Qwen3.5 小模型 光能跑推理还不过瘾? 先装好 Unsloth: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo 然后是一个最简的 SFT 相关链接: Unsloth 本地部署指南:https://unsloth.ai/docs/models/qwen3.5 Unsloth 微调指南:https://unsloth.ai/docs/models

    8.8K241编辑于 2026-03-05
  • 来自专栏新智元

    「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

    Unsloth将VRAM减少了90%,降至仅54.3GB。 减少长上下文90%VRAM 和使用Flash Attention 2的标准实现相比,Unsloth使用多种技巧,巧妙地把GRPO的VRAM使用量减少了90%多! 在20K的上下文长度下,每个提示生成8次,Unsloth在Llama-3.1-8B模型上仅使用54.3GB的VRAM,而标准实现需要510.8GB(Unsloth减少了90%)。 Unsloth将长上下文GRPO的内存使用量削减了8倍,因此对于20K的上下文长度,只需要额外的9.8GBVRAM! 还需要以16位格式存储KV缓存。 在所有实现中,还利用了logsumexp技巧: Unsloth高效GRPO算法 但没想到华人工程师Horace He的线性交叉熵实现,带给unsloth灵感并成功应用于GRPO!

    35600编辑于 2025-03-11
  • 来自专栏机器学习与统计学

    Qwen3.5本地部署终极指南,Qwen3.5-27B

    和 vLLM 或者 SGLang 部署的在线 API 不同,这里 Unsloth 提供的是量化后本地跑的方案,适合没有 H100 集群的普通玩家。 Unsloth 量化后精度损失有多少? 这就是 Unsloth Dynamic 2.0 量化技术的杀疯了之处——重要的层会被自动提升到 8-bit 甚至 16-bit,而不是一刀切全部压缩。 你的设备能跑哪个? 一键运行(Thinking 模式) # 精确编码任务用这个(temperature=0.6,更稳定) export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" 非思考模式(更快响应) # 不需要深度推理时,关掉 thinking 模式 export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF" . /Qwen3.5-35B-A3B-GGUF \ --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \ --include "*MXFP4_MOE*" # 如果想下

    8.4K41编辑于 2026-03-02
  • 来自专栏大模型本地部署

    Qwen3.5本地部署

    0.简介本教程参考了Unsloth上有关Qwen3.5部署的教程,但是国内由于网络等原因,部署的时候会遇到一系列问题,因此以下给出逐一解决的方法。后续会持续更新Qwen3.5其他系列模型。 根据你的用例,遵循下面的特定命令之一:1.2.2.1.思考模式精确编码任务:exportLLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF". 35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.6\--top-p0.95\--top-k20\--min-p0.00通用任务:exportLLAMA_CACHE="unsloth K_XL\--ctx-size16384\--temp1.0\--top-p0.95\--top-k20\--min-p0.001.2.2.2.非思考模式通用任务:exportLLAMA_CACHE="unsloth top-p0.8\--top-k20\--min-p0.00\--chat-template-kwargs'{"enable_thinking":false}'推理任务:exportLLAMA_CACHE="unsloth

    1.2K00编辑于 2026-03-06
  • 来自专栏架构驿站

    你所不了解的常用开源 LLM 微调库

    —02 — 常见的四大主流开源库一览详细解析 1、Unsloth Unsloth 的出现,可以说是近年来 LLM 微调效率领域最引人注目的突破。 Unsloth 之所以备受关注,不仅仅是因为那令人难以置信的原始速度,更在于它真正推动了技术的平民化。 Unsloth 项目地址如下:https://github.com/unslothai/unsloth 2、LLaMA-Factory LaMA Factory,或许是目前业界为 LLM 它并非要与 Unsloth 这类专用工具竞争,而是将它们作为“加速算子”无缝整合进来。用户只需通过简单的配置,就能启用这些加速功能。 尤其值得一提的是,LLaMA Factory 与 Unsloth 的深度集成,将 Unsloth 那惊人的速度提升,与自己更友好的操作界面完美结合。

    65810编辑于 2025-08-05
  • 来自专栏机器学习与统计学

    机器学习周刊 第4期:基于ChatGPT API的Android语音助手

    必读论文:检索增强生成技术综述 6、Apple 多模态大型语言模型 Ferret 7、免费ChatGPT API安卓端语音助手 8、每日数学 9、WhisperLive:实时Whisper实现 10、Unsloth 10、Unsloth 地址:https://github.com/unslothai/unsloth 训练大语言模型往往会消耗大量算力和时间,Unsloth开源的这个项目可以加快训练速度和效率。 开源版本的训练速度提高了 5 倍,或者您可以查看 Unsloth Pro 和 Max 代码路径,以获得高达 30 倍的训练速度提升!

    54611编辑于 2024-01-04
  • 如何赋予大语言模型以“灵魂”?深度解析增量预训练(Continual Pre-training)逻辑与实战代码

    这里我特别推荐大家去UnslothNotebooks上找相应的案例,Unsloth官方提供了几乎目前所有开源模型的基于Unsloth框架训练的colab笔记本,而且Unsloth自身也是一个特别优秀的框架 #Unsloth支持的4bit预量化模型,模型大小小4倍且能防止显存溢出(OOM)。 #在ModelScope社区有Unsloth的镜像,可以预先下载到本地来跳过从HuggingFace上下载fourbit_models=["unsloth/Qwen3-4B","unsloth/Phi- 4-mini-instruct","unsloth/gemma-3-12b-it",]model,tokenizer=FastLanguageModel.from_pretrained(model_name ="none",#偏置:支持任意值,但"none"是经过优化的use_gradient_checkpointing="unsloth",#使用梯度检查点:设置为"unsloth"以支持极长上下文并节省显存

    35120编辑于 2026-01-25
  • 来自专栏机器学习与统计学

    DeepSeek 更新了,我更期待量化版

    不过这要等到 unsloth 放出 Terminius 量化版模型之后了,我还是蛮强期待的。 unsloth 之前的V3.1量化版号称: 1 位 Dynamic 量化 DeepSeek-V3.1 从 671GB 压缩至 192GB(体积减少 75%),其无思考模式性能超越 GPT-4.1(2025 3 位 Unsloth DeepSeek-V3.1(思考模式)GGUF:性能超越 Claude-4-Opus(思考模式)。 最后,V4 国庆节会来吗?以往惯例,每逢佳节,DeepSeek必发新模型。

    37510编辑于 2025-10-11
  • 来自专栏AI大模型应用开发炼丹房

    四代微调框架深度拆解:24GB显存撬动700B参数的技术革命

    Unsloth:个人开发者的极速实验利器​​技术内核​​:定制Triton内核:CUDA操作优化,相比HuggingFace提速2倍动态显存管理:QLoRA训练时显存占用降低80%(实测RTX 3090 可微调Llama2-13B)多模态支持:扩展至Whisper语音模型、Stable Diffusion​​典型工作流​​:from unsloth import FastLanguageModelmodel , tokenizer = FastLanguageModel.from_pretrained("unsloth/llama-2-7b")model = FastLanguageModel.get_peft_model ⚡中等中型实验室LlamaFactoryV10013B Full⚡⚡极易教育/产品经理DeepSpeedA100 * 81T+⚡⚡⚡⚡陡峭超算中心四、选型决策树​​组合策略推荐​​:​​快速原型​​:Unsloth Unsloth (42k stars)(https://github.com/unslothai/unsloth)Unsloth 让微调变得又快又简单,只需一个 Colab 或 Kaggle 笔记本,就能把中端

    92510编辑于 2025-08-17
  • 来自专栏开源服务指南

    AudioGPT 语音技术全覆盖:语音识别、增强、分离、风格迁移等 | 开源日报 No.114

    该项目的关键特点和核心优势包括: 通过适配器实现跨位置查看和修改文件 支持 SSH 适配器,可在远程服务器上浏览文件 提供丰富的 API 用于执行不同操作 unslothai/unsloth[2] Stars 支持 4bit and 16bit LoRA finetuning 在 260 小时内完全在本地训练 Slim Orca 模型 (原来需要 1301 小时) 该开源版本可以实现 5 倍加速训练或者选择 Unsloth 可通过 Github 提交修复程序 相关链接 [1] stevearc/oil.nvim: https://github.com/stevearc/oil.nvim [2] unslothai/unsloth : https://github.com/unslothai/unsloth [3] ThePrimeagen/harpoon: https://github.com/ThePrimeagen/harpoon

    60410编辑于 2023-12-15
  • 来自专栏《Cloud Studio》

    2026了,为什么高手还在钻研 Llama 3.1?

    Unsloth 与 Llama 3.1: Unsloth 当年对梯度检查点和显存的极致优化,是理解如今高效训练框架的基石。 • ORPO 与 DPO: 现在的对齐算法大多是 DPO 的变体。 随着 Python 版本迭代、CUDA 升级、PyTorch 废弃旧接口,想在 2026 年的本地电脑上完美复现 Llama 3 时代的 Unsloth 环境,简直是 “依赖地狱”。 在课程创建时就已经把所有的环境系统都适配成功,所以CloudStudio 都能为你一键拉起适配 Llama 3.1 和 Unsloth 旧版本的特定运行环境。

    16510编辑于 2026-01-14
  • 来自专栏机器学习与统计学

    MiniMax M2.1 量化版来了

    tool-call-parser minimax_m2 \ --reasoning-parser minimax_m2_append_think 推荐几个主流且稳定的量化版吧,本地跑起来成本低很多 Unsloth 首先登场的是 大模型量化界翘楚:unsloth 从 1-bit 到 16-bit 都有,llama.cpp 运行,缺点是慢 https://huggingface.co/unsloth/MiniMax-M2.1

    1.7K10编辑于 2026-01-05
领券