首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI

    模型微调

    # 模型微调的主流方式、核心区别与底层原理 微调(Fine-tuning)的核心底层共性:基于预训练模型的知识迁移,冻结预训练模型的大部分通用特征参数,仅针对具体任务优化少量参数/引入轻量模块/设计提示特征 核心特点 优点:参数更新比例降至10%-30%,算力/数据需求大幅降低,不易过拟合; 缺点:任务适配性略低于全量微调,通用特征与任务特征的融合性有限,仍需一定规模的任务数据(十万级以上)。 核心特点:效果接近全量微调,是工业级模型的主流选择,参数量仍控制在5%以内。 无(模型无实操性) 部分微调 10%-30% 中 十万级以上 无 顶层MLP/嵌入层微调模型、中等资源任务 以内,适合工业级两段式端到端模型的落地; 避免全量/部分微调:针对Transformer模型的两段式端到端架构,全量/部分微调的算力成本极高,且多任务适配时模型存储成本不可接受。

    81810编辑于 2026-02-09
  • 来自专栏AI理论与前沿

    对于模型,到底微调还是不微调

    调整开源语言模型(LLM)的系列博客的第二篇文章。本文讨论:“什么时候应该进行微调,什么时候应该考虑其他技术?”0 引言在 LLM 出现之前,微调通常用于小规模模型(100M – 300M 参数)。 当时,最先进的领域应用通过监督微调(SFT)构建,即使用标注数据对预训练模型进行进一步训练,以适应自己的领域和下游任务。然而,随着大型模型(>1B 参数)的兴起,微调的问题变得更加复杂。 最重要的是,大型模型微调需要更大的资源和商业硬件。下表 1 列出了在三种情况下,微调 Llama 2 7B 和 Llama 2 13B 模型的峰值 GPU 内存使用量。 QLoRA 这样的算法使得使用有限资源对模型进行微调变得更加可行。作为示例,表 1 显示了 Llama 2 7B 的三种微调模式(全微调、LoRA 和 QLoRA)的峰值 GPU 内存。 1.4 成本节约微调可以将 Llama 2 70B/GPT-4 等模型的技能提炼到较小的模型中,如 Llama 2 7B,从而在不影响质量的情况下降低成本和延迟。

    1K00编辑于 2024-09-17
  • 来自专栏喔家ArchiSelf

    解读模型微调

    实际上,可以使用预训练的大型语言模型进行新任务的上下文学习并进行微调。 那么,什么是上下文学习?又如何对模型进行微调呢? 1. output} dataset_features = dataset_tokenized.map( get_output_embeddings, batched=True, batch_size=10 参数高效微调 参数高效微调允许我们在最小化计算和资源占用的同时重复使用预训练模型。 ChatGPT中的RLHF 解读Toolformer 知识图谱的5G追溯 图计算的学习与思考 AI系统中的偏差与偏见 面向AI 的数据生态系统 机器学习与微分方程的浅析 神经网络中常见的激活函数 老码农眼中的模型 (LLM) 《深入浅出Embedding》随笔 机器学习系统架构的10个要素 清单管理?

    1.6K30编辑于 2023-09-02
  • 来自专栏腾讯技术工程官方号的专栏

    模型微调方法总结

    但是随着预训练语言模型越来越大,这个范式存在以下问题: ● 当我们 finetune 模型时,由于训练成本太高,不太可能重新训练所有模型参数 ● 以前的方法(论文发表于 2021 年)都或多或少有其它性能问题 如果是全参数微调,则它的参数量=W0 参数量(如果是 GPT3,则 ΔW≈175B)。从这可以看出要全参数微调语言模型,小家小户是不可能的。 总结 总的来说,基于模型的内在低秩特性,增加旁路矩阵来模拟 full finetuning,LoRA 是一个能达成 lightweight finetuning 的简单有效的方案。 目前该技术已经广泛应用于模型微调,如 Alpaca,stable diffusion+LoRA,而且能和其它参数高效微调方法有效结合,例如 State-of-the-art Parameter-Efficient Adapter 方法不需要微调预训练模型的全部参数,通过引入少量针对特定任务的参数,来存储有关该任务的知识,降低对模型微调的算力要求。

    3K42编辑于 2023-07-26
  • 来自专栏深圳架构师同盟

    LoRA模型微调介绍

    一、微调流程二、选择微调基础模型如果我们需要进行的是监督指令微调,建议选择带-Instruct后缀的模型,关于模型命名及后缀说明如下截图:三、准备意图识别微调训练集和验证集提醒:从开源平台(如Hugging 然后看情况看模型效果,慢慢调高或者。特别是小数据集的朋友们,一开始不要用特别的学习率。例如1e-4、2e-4这种的。总的来说,小一点的学习率确实比较好拟合。也有不错的效果。 换句话说,一个 Epoch 表示模型已经看到了所有训练样本一次。一般建议最好控制在10个epoch以内。尽可能在10个epoch里面将模型拟合到0.7~1.4 loss范围之间。 这样就能实现用小显存实现 batch size 的效果,类似于 “分期付款” 的效果。 五、模型微调后验证通过预留的10%的微调数据集用做训练后的模型验证集。模型验证数据集中可以加上对应训练时的提示词,如:你是一个意图识别专家,可以根据用户的问题识别出意图,并返回对应的函数调用和参数。

    56810编辑于 2026-01-21
  • 来自专栏机器学习与统计学

    微调模型,门槛低到离谱

    微调模型这件事,门槛低到什么程度了? 之前这事儿都可以做成商业模式了,数据、环境、脚本、硬件一套下来,成本极高。 Vision RL、TTS 微调 视觉模型也能用 GRPO 做强化学习了。 门槛确实低到离谱 总的来说:如果你一直想微调模型、训自己的推理模型、或者只是想试试「把 Claude 的能力蒸馏到小模型里」,现在就是最好的时机。 10 万个 Hugging Face 上的开源模型不会说谎——个人开发者时代的模型炼丹,正在发生。 DeepSeek V3+R1 满血微调工具一键启动,硬件要求降 10模型微调实战,教程 + 代码 微调一个视觉模型,手写数字识别为例,从零开始,基于 Qwen2.5,附代码!

    98710编辑于 2026-03-02
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(九):模型微调之计算微调参数占比

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 Transformers 提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍如何打印微调参数,以及微调参数占比计算。 二、计算微调参数占比 2.1 概述 基于LoRA进行模型微调时,需要先冻结全部参数,再指定相应的Linear层进行微调,那么如何计算全部参数,如何计算微调参数以及如何计算微调参数占全部参数的比例呢? 2.2 模型参数结构一览 这里以Qwen2为例,在微调前,对模型结构有所认知,对于QLoRA量化微调算法来说,只微调模型的线性层(Linear层),后面会看到在LoRAConfig中,仅指定了"q_proj

    72310编辑于 2024-08-13
  • 模型微调】一文掌握5种模型微调的方法

    一、模型微调的基础理论在探索具体方法之前,我们首先需要建立一个清晰的认知框架,理解模型微调在整个AI模型生命周期中所扮演的角色。 模型微调究竟是什么?直观上,模型微调即是指通过输入特定领域或任务的数据,并有选择性地调整模型参数的技术过程。 为什么模型微调至关重要?微调的重要性在于它能够“激活”基座模型的潜在能力,为其“装备”上精细化、专业化的功能。没有微调模型就像一件未开刃的神兵,空有材质而缺乏锋芒。 四、模型微调赋能智能未来综上所述,模型微调是连接通用基座模型强大能力与具体业务需求的关键桥梁。 为此,我特意整理了全套《模型微调实战进阶宝典》,这份资料凝聚了我多年的实战经验,其中包含:《模型微调实战避坑指南》:精选20+真实项目经验,解析训练发散、灾难性遗忘等高频难题《十前沿行业微调白皮书

    4.2K40编辑于 2025-10-23
  • 来自专栏数据派THU

    独家 | 何时微调语言模型

    作者:Skanda VIvek翻译:陈之炎校对:zrx 本文约3100字,建议阅读7分钟对开源的语言模型进行微调的确令人兴奋不已,相比之下,又如何微调非开源的语言模型呢? 标签:语言模型 领英(LinkedIn)账号的fork中向我提出了这样一个问题:如何微调诸如LLaMA的开源模型。 人们普遍认为,非开源的模型太贵了,1000个 token需要花费0.002美元,为什么不可以在100个样本上做一下尝试,并评估语言模型是否为特定应用程序的最佳选择。 这就是微调的作用所在。 微调LLM 在讨论微调语言模型之前,首先谈谈像BERT这样的小语言模型微调,这在语言模型出现之前很常见。 对于10万左右的指令来说,微调模型并不是很昂贵——但是需要仔细考虑之后才能获得正确的指令。

    65520编辑于 2023-08-08
  • 来自专栏大模型&AIGC

    6种模型微调技术

    值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 :查找的最优提示,可能是次优的在小参数量模型中表现差(小参数模型如Bert,330M),上了10B的模型效果才开始可以持平序列标注等对推理和理解要求高的任务,prompt-tuning效果会变差P-tuning ,无需verbalizer(4) 特点在小、模型上,效果均优于P-tuning。 随着我们预训练更大的模型,全面微调(即重新训练所有模型参数)变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,成本是极其昂贵的。 与使用Adam对GPT-3 175B进行微调相比,LoRA可以将可训练参数数量减少10,000倍,GPU内存需求减少3倍。

    2.9K00编辑于 2025-05-08
  • 来自专栏程序那些事

    LoRA模型微调的利器

    LoRA模型是小型的Stable Diffusion模型,它们对checkpoint模型进行微小的调整。它们的体积通常是检查点模型10到100分之一。 LoRA(Low-Rank Adaptation)是一种微调Stable Diffusion模型的训练技术。 虽然我们已经有像Dreambooth和文本反转这样的训练技术。那么LoRA有什么用呢? LoRA对Stable Diffusion模型中最关键的部分进行小的修改:交叉注意力层。研究人员发现,微调这部分模型就足以实现良好的训练。 LoRA模型通过将自己的权重加到这些矩阵上来微调模型。 如果LoRA模型需要存储相同数量的权重,它们的文件怎么会更小呢?LoRA的技巧是将矩阵分解成两个更小的(低秩)矩阵。 第1步:安装LoRA模型 要在AUTOMATIC1111 webui中安装LoRA模型,请将模型文件放入以下文件夹。

    6.1K21编辑于 2024-09-04
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(八):模型微调之LoraConfig

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 Transformers 提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。 LoRA是一种用于微调大型语言模型的轻量级方法,它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整,从而在不显著增加模型大小的情况下提升特定任务的性能。 target_modules: 指定模型中的哪些模块(层)将应用LoRA适应。这允许用户集中资源在对任务最相关的部分进行微调。 get_peft_model(model, config) print_trainable_parameters(model) 三、总结 本文简要介绍LoraConfig的配置参数情况,具体的机遇peft对模型进行微调后面单独开一页详细讲解

    1K10编辑于 2024-08-13
  • 来自专栏charlieroro

    2024年语言模型微调

    微调包括调节通用模型并将其调节为特定模型,它是连接通用预训练模型和特定应用的特定需求之间的桥梁,从而保证语言模型能够接近人类的预期。 用于微调语言模型的数据集必须服务于指导的目的。 通过这种方式可以使用远小于原始模型的参数(某些场景下,只需要15%~20%的原始权重,LoRA可以将训练的参数数目减少10,000倍)进行训练,这样可以使内存需求更易于管理。 完整微调会为每个训练的任务提供一个新版本模型,这些新模型和原始模型一样,因此如果你需要为多个任务进行微调的话,看会导致存储成本问题。 RAG和微调的对比如下: 微调最佳实践 明确定义任务 定义任务是微调语言模型的基础步骤。

    85010编辑于 2024-03-08
  • 来自专栏具身小站

    模型参数高效微调概述(PEFT)

    PEFT,全称是 参数高效微调 (Parameter-Efficient Fine-Tuning),是一套用于调整大型预训练模型(如语言模型LLM)以适应特定下游任务的方法论,其核心思想是在 极小化计算和存储资源 QLoRA :LoRA的进化版, 结合了4-bit量化技术 ,进一步将模型的基本权重压缩,使得在单张消费级GPU(如24GB显存)上微调650亿参数的模型成为可能。 3 PEFT的主要作用与优势 PEFT之所以成为模型应用的关键技术,是因为它解决了全量微调的几大痛点: 极大降低硬件门槛 :由于需要计算和存储梯度的参数极少,对GPU显存的需求大幅下降。 4 应用领域 PEFT的应用早已不限于语言模型(NLP),它已扩展到AI的各个前沿领域: 多模态模型 :用于微调图像生成模型(如Stable Diffusion)进行风格化训练(如DreamBooth 总的来说,PEFT不是单一的算法,而是一套 让模型“飞入寻常百姓家”的方法论 。

    78410编辑于 2026-03-09
  • 来自专栏AI前沿技术

    模型训练|LoRA高效参数微调技术

    它打破传统全量微调的局限,只对模型中少量参数进行调整,就能让模型在特定任务上表现出色,大大降低了模型在不同任务适配过程中的资源门槛。 如: • 图像、文本等数据的特征矩阵中,大部分有价值的信息可通过低秩矩阵捕捉,冗余信息(高秩分量)对结果影响较小; • 模型的权重更新矩阵,微调时的 ,本身具有 “低秩特性”,所以模型适应新任务时,权重的变化不需要满秩矩阵来描述 这也是低秩适应技术在模型优化中广泛应用的核心原因。 2,LoRA微调策略 • 传统的全量微调策略 预训练好的模型,其权重矩阵为 ,维度是 。 在模型的自注意力层,可训练的参数有四个 ,通过变化矩阵的秩 r,保持可微调的参数总量为18M,分别在两个任务上进行测试。 实验发现在参数矩阵 ,进行LoRA微调,即使矩阵的秩 r=1也取得了和秩矩阵 r=64 一样的效果。

    1.2K10编辑于 2026-01-13
  • 来自专栏有文化的技术人

    模型微调开源框架推荐

    LLaMA-Factory 「GitHub」: https://github.com/hiyouga/LLaMA-Factory 「特点」: 支持 100+ 种 LLM 的微调(LLaMA、Mistral 、Qwen、ChatGLM 等) 提供 WebUI 界面,零代码微调 支持 LoRA、QLoRA、全参数微调等多种方法 内置数据集处理和评估功能 2. Axolotl 「GitHub」: https://github.com/OpenAccess-AI-Collective/axolotl 「特点」: 配置驱动,通过 YAML 文件定义训练流程 支持多种模型微调方法 「GitHub」: https://github.com/unslothai/unsloth 「特点」: 训练速度提升 2-5 倍,显存减少 80% 支持 LLaMA、Mistral、Gemma 等模型 快速选择建议 场景 推荐框架 新手入门、零代码 LLaMA-Factory Hugging Face 生态 PEFT 显存有限、追求速度 Unsloth 超大规模分布式训练 DeepSpeed 国产模型微调

    33310编辑于 2026-04-09
  • 来自专栏创作是最好的自我投资

    关于模型微调,你了解多少

    这就是模型,比如今年火爆的DeepSeek。微调与强化学习、模型蒸馏通常情况下,模型泛指的是通用模型,也就是说模型在对知识理解的广度上来说,任何领域,任何学科的知识都懂。 这个时候就需要用到模型微调了。 通过模型蒸馏,就像让大厨把毕生绝学浓缩成一本傻瓜菜谱交给徒弟(学生模型),那么徒弟无需理解火候的微妙变化,只需按简化步骤操作(如“油温六成热时下肉片,默数10秒翻面”),就能复现大厨八成的菜品风味。 模型微调微调不仅可以显著提高模型在特定领域或任务上的表现,还能使其适应于各种具体应用场景的需求。 写在最后模型微调模型的影响主要体现在专业化能力提升与通用性权衡:通过注入特定领域数据(如法律文书或医疗诊断),模型能精准适配垂直场景需求,如从全能翻译官转型为医学术语专家;但过度微调可能导致灾难性遗忘

    72320编辑于 2025-03-27
  • 来自专栏喔家ArchiSelf

    模型微调:RHLF与DPO浅析

    模型应用性能的提升不仅在于其预训练,而微调的作用也非常显著。对于多数从事模型应用领域的团队而言,微调是一个核心的工作之一,为专门任务完善模型并确保其产出符合我们的预期。 1. 例如,对一般数据集上训练的模型进行微调,以理解医学语言或法律术语的细微差别,使其在这些环境中更相关、更有效。关于微调的更多内容可以参考《解读模型微调》。 在 RLHF 中,“回报”是由人的反馈决定的,这意味着模型成功地产生了理想的输出。 2.1 模型的自我监督预训练 从收集一个庞大而多样化的数据集开始,通常包括广泛的主题、语言和写作风格。 这个步骤可能涉及反馈收集和奖励模型调整的几个迭代,以准确捕获人的偏好。 2.4 使用来自奖励模型的反馈来微调语言模型 从奖励模型中获得的见解被用来微调语言模型。 一句话小结 通过强化学习,利用人类反馈(RLHF)和直接偏好优化(DPO)微调模型,能够保证相对准确地产生一些关键的见解,使人工智能在适应性、高效率和符合人类价值观方面发挥重要作用。

    1.2K20编辑于 2024-11-07
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(八):10分钟微调专属于自己的模型

    LLM 模型学习必知必会系列(八):10分钟微调专属于自己的模型 1.环境安装 # 设置pip全局镜像 (加速下载) pip config set global.index-url https:// 仓库使用最新环境测试) pip install -r requirements/framework.txt -U pip install -r requirements/llm.txt -U 2.微调前推理 我是来自阿里云的大规模语言模型,我叫通义千问。 -------------------------------------------------- <<< what's your name? 我是阿里云自主研发的超大规模语言模型。 -------------------------------------------------- <<< 浙江的省会在哪? 浙江的省会是杭州。 如果你要进行单样本推理, 可以参考LLM推理文档 使用CLI: CUDA_VISIBLE_DEVICES=0 swift infer --model_type qwen1half-4b-chat 3.微调

    79800编辑于 2024-05-26
  • 贪心-模型微调实战营-应用篇

    随着语言模型(Large Language Models, LLM)在企业、政务、医疗、金融等关键领域的深度渗透,一个核心挑战日益凸显:如何让通用模型在特定场景中“说对的话、做对的事”? 由此,“对齐”(Alignment)——即引导模型行为与人类价值观、行业规范及组织目标保持一致——已成为模型落地过程中最关键的技术攻坚方向之一。 本文将从实战视角出发,探讨如何实现模型价值观与领域规则的精准适配,为企业构建安全、可靠、可用的专属AI助手提供方法论支撑。一、为何对齐是模型落地的“最后一公里”? 通用模型虽具备强大的语言理解和生成能力,但其训练数据庞杂多元,缺乏对特定行业规则、组织文化或法律边界的精准认知。 这一层通常通过指令微调(Instruction Tuning) 和 价值观强化学习(RLHF/RLAIF) 实现,使模型在生成内容前就内化这些准则,而非事后拦截。2.

    40710编辑于 2025-11-18
领券