首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏第一专栏

    LLM-TAP随笔——监督微调【深度学习】【PyTorch】【LLM】

    5、 监督微调 5.1、提示学习&语境学习 提示学习 完成预测的三个阶段:提示添加、答案搜索、答案映射 提示添加 “[X] 我感到 [Z]” x = “我不小心错过了公共汽车。” 如下情感分类,续写情感极性: 5.2、高效微调 高效微调:在缩减训练参数量和GPU显存占用,同时使训练后的模型具有与全量微调相当的性能。 全量微调微调全部参数需要相当高的算力。 前缀微调( Prefix Tuning) 前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。 (x,m) = f(x,\frac{m}{L'})L 将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L) 5.4、指令数据构建 指令数据的质量和多样性是衡量指令数据的重要维度,影响监督微调过程的关键因素 LLaMA 模型上进行监督微调得到 Alpaca 模型, 所使用的指令数据集的示例 5.5、开源指令数据集 开源数据指令集

    71040编辑于 2023-09-26
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调 使用目标任务的训练集对预训练模型进行微调 1.3 监督微调的特点 监督微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。 监督微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    10.1K66编辑于 2023-10-11
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 1.3 监督微调的特点 监督微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。 监督微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    25.6K07编辑于 2023-07-16
  • 来自专栏datartisan

    监督or监督

    监督数据挖掘算法和监督数据挖掘算法的主要区别在于数据集的标签信息。 监督数据挖掘算法: 1. 特点:监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 总结: 监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。

    41210编辑于 2023-10-29
  • 来自专栏111222444

    SFT 监督微调基本概念

    1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。 微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。 在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好; 评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。 1.3 监督微调的特点

    27700编辑于 2025-10-13
  • 来自专栏机器之心

    何恺明一作,刷新7项检测分割任务,无监督预训练完胜监督

    7 个与检测和分割相关的下游任务中,MoCo 可以超越在 ImageNet 上的监督学习结果,在某些情况下其表现甚至大大超越后者。 在 ImageNet 数据集中,MoCo 在普通线性分类标准下展示出了竞争力的结果。 无监督学习的主要目的之一是预训练出可以通过微调迁移到下游任务的表征。 何恺明团队的研究结果表明,在 7 个与检测和分割相关的下游任务中,MoCo 无监督预训练可以超越在 ImageNet 上的监督学习结果,在某些情况下其表现还大大超越后者。 表 2:在 PASCAL VOC trainval07+12 上微调的目标检测结果。 ? 表 6:在各种任务上微调时 MoCo 和 ImageNet 监督预训练的对比结果。

    84030发布于 2019-11-15
  • 来自专栏AI SPPECH

    99_监督微调:Alpaca数据集格式与实现

    本文将深入探讨监督微调的原理、Alpaca数据集格式的设计理念,以及如何在实际项目中实现高效的监督微调过程。 欢迎来到我们的咖啡世界,这里香浓的咖啡,舒适的环境,还有温暖的服务,让您的每一次到访都成为一次愉悦的体验。" pip install tensorboardX==2.6 5.1.2 硬件要求 监督微调的硬件要求取决于模型大小和微调方法: 全参数微调:需要大量GPU内存,对于7B参数的模型,通常需要2-4张A100 GPU 参数高效微调(如LoRA):资源需求显著降低,单个消费级GPU(如RTX 3090)即可处理7B参数模型 5.2 数据集加载与处理 在实现监督微调之前,需要加载和处理Alpaca格式的数据集。 不同框架实现监督微调的比较 在实际应用中,多种框架可以用于实现基于Alpaca格式的监督微调

    61411编辑于 2025-11-16
  • 来自专栏数据科学与人工智能

    监督学习和无监督学习

    一般情况下,机器学习分为监督学习和无监督学习。 监督学习 监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。 因为输入和输出已知,意味着输入和输出之间一个关系,监督学习算法就是要发现和总结这种“关系”。 监督学习问题分为回归和分类问题。 无监督学习 无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。 我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。

    1.6K50发布于 2018-02-28
  • TransNormerLLM-7B Lora 微调

    TransNormerLLM-7B Lora 微调 本节我们简要介绍如何基于 transformers、peft 等框架,对 TransNormerLLM-1B「备注:TransNormerLLM-358M /1B/7B的」 模型进行 Lora 微调。 环境配置 在完成基本环境配置和本地模型部署的情况下,你还需要安装一些第三方库,这里我们两种安装方式,不过在安装依赖库之前我们首先更新pip版本(防止版本过低),并切换pip的安装源(到国内源,这样可以安装更快 在本节教程里,我们将微调数据集 huanhuan.json 放置在根目录 /dataset,该样本数据取自 huanhuan.json 指令集构建 LLM 的微调一般指指令微调过程。 所谓指令微调,是说我们使用的微调数据形如: { "instruction":"回答以下用户问题,仅输出答案。", "input":"1+1等于几?"

    43810编辑于 2025-07-17
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型三大适应技术详解:监督微调、提示学习与语境学习

    针对中小企业或技术储备有限的使用者,行业已探索出多条轻量化、低门槛的落地路径,其中有监督微调、提示学习与语境学习最为核心,它们能帮我们绕开大规模硬件投入与复杂技术壁垒,高效发挥大模型的能力:监督微调: 一、监督微调1. 微调后的模型在相同任务上表现更加一致,大大减少了不受控的“幻觉”输出。简而言之,监督微调的目标是打造一个在特定领域内表现卓越、行为可靠、高度专业化的专家模型。二、提示学习1. 优化与部署阶段(监督微调):当通过轻量级方法验证了需求,但性能、稳定性和准确性仍不满足生产要求时,就会投入资源,收集数据,进行监督微调。 第二层(监督微调):“深度定制”的高性能方案。当轻量级方案无法满足性能、稳定性和专业化要求时,投入资源进行微调,打造不可替代的核心竞争力。

    35832编辑于 2026-01-19
  • DeepSeek-7B-chat Lora 微调

    DeepSeek-7B-chat Lora 微调 概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 DeepSeek-7B-chat 模型进行 Lora 微调。 Lora 是一种高效微调方法,深入了解其原理可参见博客:知乎|深入浅出Lora。 这个教程会在同目录下给大家提供一个 nodebook 文件,来让大家更好的学习。 指令集构建 LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使用的微调数据形如: { "instrution":"回答以下用户问题,仅输出答案。" /deepseek-ai/deepseek-llm-7b-chat/', use_fast=False, trust_remote_code=True) tokenizer.padding_side = /deepseek-ai/deepseek-llm-7b-chat/', trust_remote_code=True, torch_dtype=torch.half, device_map="auto

    41310编辑于 2025-07-17
  • BlueLM-7B-Chat Lora 微调

    BlueLM-7B-Chat Lora 微调 概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 BlueLM-7B-Chat 模型进行 Lora 微调。 Lora 是一种高效微调方法,深入了解其原理可参见博客:知乎|深入浅出Lora。 ./04-BlueLM-7B-Chat Lora 微调.ipynb) 文件,来让大家更好的学习。 指令集构建 LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使用的微调数据形如: { "instruction": "解释什么是人工智能。 torch.half, device_map="auto") model.generation_config = GenerationConfig.from_pretrained('vivo-ai/BlueLM-7B-Chat

    31810编辑于 2025-07-17
  • Qwen-7B-Chat Lora 微调

    Qwen-7B-Chat Lora 微调 概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 Qwen-7B-Chat 模型进行 Lora 微调。 Lora 是一种高效微调方法,深入了解其原理可参见博客:知乎|深入浅出Lora。 本节所讲述的代码脚本在同级目录 04-Qwen-7B-Chat Lora 微调 下,运行该脚本来执行微调过程,但注意,本文代码未使用分布式框架,微调 Qwen-7B-Chat 模型至少需要 24G 及以上的显存 指令集构建 LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使用的微调数据形如: { "instrution":"回答以下用户问题,仅输出答案。" 不同模型所对应的格式化输入都不一样,所以需要我们深度模型的训练源码来查看,因为按照原本模型指令微调的形式进行Lora微调效果应该是最好的,所以我们依然遵循原本模型的输入格式。

    86110编辑于 2025-07-17
  • 来自专栏全栈程序员必看

    监督学习、无监督学习以及半监督学习详解

    相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)? 监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的 过程,也称为监督训练或有教师学习。 监督学习一种应用场景:回归和分类。 回归(Regression) 回归问题是针对于连续型变量的。 举个栗子:预测房屋价格 假设想要预测房屋价格,绘制了下面这样的数据集。 给定数据,假设一个人一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。 这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。 半监督学习 半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。

    3.1K20编辑于 2022-09-01
  • XVERSE-7B-Chat Lora 微调

    概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 XVERSE-7B-Chat 模型进行 Lora 微调。 Lora 是一种高效微调方法,深入了解其原理可参见博客:知乎|深入浅出Lora。 这个教程会在同目录下给大家提供一个 notebook 文件,来让大家更好的学习。 指令集构建 LLM 的微调一般指指令微调过程。所谓指令微调,是说我们使用的微调数据形如: { "instruction": "解释什么是人工智能。 torch.half, device_map="auto") model.generation_config = GenerationConfig.from_pretrained('xverse/XVERSE-7B-Chat True) print(result) 完整代码请看: https://github.com/datawhalechina/self-llm/blob/master/XVERSE/05-XVERSE-7B-Chat

    26510编辑于 2025-07-21
  • Qwen-7B-Chat Ptuning 微调

    Qwen-7B-Chat Ptuning 微调 Ptuning原理 参考transformers-code 数据加载与模型配置与LoRa一致,在此具体讲一下Ptuning的细节: 基本原理为冻结主模型全部参数 Ptuning PEFT模块 PromptEncoderReparameterizationType来决定到底是用LSTM还是MLP 可调的参数:num_virtual_tokens、encoder_reparameterization_type PromptEncoderReparameterizationType.MLP: 'MLP'>, encoder_hidden_size=1024, encoder_num_layers=5, encoder_dropout=0.1) ''' 其余可见目录下微调脚本 Dataset.from_pandas(df) # 加载tokenizer tokenizer = AutoTokenizer.from_pretrained('/root/autodl-tmp/qwen/Qwen-7B-Chat ) # 创建模型并以半精度形式加载 model = AutoModelForCausalLM.from_pretrained('/root/autodl-tmp/qwen/Qwen-7B-Chat

    41510编辑于 2025-07-17
  • 来自专栏全栈程序员必看

    监督学习VS无监督学习「建议收藏」

    这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。 这个问题可以回答得很简单:是否监督(supervised),就看输入数据是否标签(label)。 输入数据有标签,则为监督学习,没标签则为无监督学习。 首先看什么是学习(learning)?一个成语就可概括:举一反三。 这样当特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 在上述的分类过程中,如果所有训练数据都有标签,则为监督学习(supervised learning)。 例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签…… 这时有人可能会想,难道监督学习和无监督学习就是非黑即白的关系吗? 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常极大于标签数据数量(这也是符合现实情况的)。

    84730编辑于 2022-09-01
  • 来自专栏Python与算法之美

    Qwen7b微调保姆级教程

    前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于各种开源LLM模型的,同时支持多轮和单轮对话数据集的大模型高效微调范例。 我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知(以Qwen7b-Chat为例)。 : 一,准备数据 下面我设计了一个改变LLM自我认知的玩具数据集,这个数据集三轮对话。 所以,总共是 27个样本。 1,导入样本 who_are_you = ['请介绍一下你自己。','你是谁呀?','你是?',] i_am = ['我叫梦中情炉,是一个三好炼丹炉:好看,好用,好改。 ,'你从哪里来呀'] i_from = ['我在2020年诞生于github星球,是一个毅力的吃货设计和开发的。'] what_you_can = ['你能干什么','你什么作用呀?'

    2.5K31编辑于 2023-09-17
  • Atom-7B-chat 全量微调

    Atom-7B-chat 全量微调 修改代码 首先我们要准备训练模型的代码,这里我们使用的 modelscope 上的 Atom-7B-chat 模型,大家自行下载即可。 其实全量微调和 Lora 微调的代码基本一样,都采用了 Trainer 类来进行训练。 只不过在全量微调的时候没有加载 LoraConfig,那我就直接给出代码,如果对代什么问题,大家可以先自行探索Qwen lora的代码解释,什么不懂的地方可以提Issue。 /model/FlagAlpha/Atom-7B-Chat/") # 用于处理数据集的函数 def process_func(example): MAX_LENGTH = 128 # Llama 注意: 因为本脚本使用了adam_cpu来加载优化器参数,所以全量微调所需的显存会比较小,但仍然需要使用至少4张24G显存的卡来训练。

    24710编辑于 2025-07-17
  • 来自专栏量子位

    何恺明最新一作论文:无监督监督,迁移学习无压力,刷新7项检测分割任务

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 何恺明的一作论文,又刷新了7项分割检测任务。 这一次,涉及的是无监督表征学习。这一方法广泛应用在NLP领域,但尚未在计算机视觉中引起注意。 其预训练模型经过微调可以迁移到不同的任务上。 ? 在ImageNet、CoCo等数据集上,MoCo甚至在某些情况下大大超越了监督预训练模型。 研究团队表示: 这表明,在许多视觉任务中,无监督监督的表征学习之间的鸿沟已经大大消除。 方法原理 那么,MoCo究竟是怎么实现的呢? 并且在针对不同的任务进行微调之后,MoCo可以很好地迁移到下游任务中,表现甚至优于监督预训练模型。 ? 而PASCAL VOC,COCO等其他数据集上的7种检测/细分任务中,MoCo的表现也优于其他监督预训练模型。甚至十分明显的提升。 ? ?

    91420发布于 2019-11-20
领券