首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏第一专栏

    LLM-TAP随笔——监督微调【深度学习】【PyTorch】【LLM】

    5、 监督微调 5.1、提示学习&语境学习 提示学习 完成预测的三个阶段:提示添加、答案搜索、答案映射 提示添加 “[X] 我感到 [Z]” x = “我不小心错过了公共汽车。” 如下情感分类,续写情感极性: 5.2、高效微调 高效微调:在缩减训练参数量和GPU显存占用,同时使训练后的模型具有与全量微调相当的性能。 全量微调微调全部参数需要相当高的算力。 前缀微调( Prefix Tuning) 前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。 (x,m) = f(x,\frac{m}{L'})L 将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L) 5.4、指令数据构建 指令数据的质量和多样性是衡量指令数据的重要维度,影响监督微调过程的关键因素 LLaMA 模型上进行监督微调得到 Alpaca 模型, 所使用的指令数据集的示例 5.5、开源指令数据集 开源数据指令集

    70240编辑于 2023-09-26
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调 使用目标任务的训练集对预训练模型进行微调 1.3 监督微调的特点 监督微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。 监督微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    10K66编辑于 2023-10-11
  • 来自专栏datartisan

    监督or监督

    监督数据挖掘算法和监督数据挖掘算法的主要区别在于数据集的标签信息。 监督数据挖掘算法: 1. 特点:监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 总结: 监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。

    40910编辑于 2023-10-29
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 1.3 监督微调的特点 监督微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。 监督微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    25.5K07编辑于 2023-07-16
  • 来自专栏111222444

    SFT 监督微调基本概念

    1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。 微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。 在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好; 评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。 1.3 监督微调的特点

    26600编辑于 2025-10-13
  • 来自专栏AI SPPECH

    99_监督微调:Alpaca数据集格式与实现

    本文将深入探讨监督微调的原理、Alpaca数据集格式的设计理念,以及如何在实际项目中实现高效的监督微调过程。 监督微调的理论基础 2.1 监督微调的定义与原理 监督微调(Supervised Fine-Tuning, SFT)是在预训练模型基础上,使用人工标注的高质量数据集对模型进行二次训练的过程。 2.2 监督微调与其他微调范式的比较 在LLM训练流程中,存在多种微调范式,每种范式都有其特定的目标和应用场景: 微调范式 主要目标 数据特点 适用场景 无监督微调 领域知识扩展 大规模领域文本 领域知识迁移 欢迎来到我们的咖啡世界,这里香浓的咖啡,舒适的环境,还有温暖的服务,让您的每一次到访都成为一次愉悦的体验。" 不同框架实现监督微调的比较 在实际应用中,多种框架可以用于实现基于Alpaca格式的监督微调

    57711编辑于 2025-11-16
  • 来自专栏数据科学与人工智能

    监督学习和无监督学习

    一般情况下,机器学习分为监督学习和无监督学习。 监督学习 监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。 因为输入和输出已知,意味着输入和输出之间一个关系,监督学习算法就是要发现和总结这种“关系”。 监督学习问题分为回归和分类问题。 无监督学习 无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。 我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。

    1.6K50发布于 2018-02-28
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型三大适应技术详解:监督微调、提示学习与语境学习

    针对中小企业或技术储备有限的使用者,行业已探索出多条轻量化、低门槛的落地路径,其中有监督微调、提示学习与语境学习最为核心,它们能帮我们绕开大规模硬件投入与复杂技术壁垒,高效发挥大模型的能力:监督微调: 一、监督微调1. 微调后的模型在相同任务上表现更加一致,大大减少了不受控的“幻觉”输出。简而言之,监督微调的目标是打造一个在特定领域内表现卓越、行为可靠、高度专业化的专家模型。二、提示学习1. 优化与部署阶段(监督微调):当通过轻量级方法验证了需求,但性能、稳定性和准确性仍不满足生产要求时,就会投入资源,收集数据,进行监督微调。 第二层(监督微调):“深度定制”的高性能方案。当轻量级方案无法满足性能、稳定性和专业化要求时,投入资源进行微调,打造不可替代的核心竞争力。

    34021编辑于 2026-01-19
  • 来自专栏全栈程序员必看

    监督学习、无监督学习以及半监督学习详解

    相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)? 监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的 过程,也称为监督训练或有教师学习。 监督学习一种应用场景:回归和分类。 回归(Regression) 回归问题是针对于连续型变量的。 举个栗子:预测房屋价格 假设想要预测房屋价格,绘制了下面这样的数据集。 给定数据,假设一个人一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。 这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。 半监督学习 半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。

    3.1K20编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    监督学习VS无监督学习「建议收藏」

    这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。 这个问题可以回答得很简单:是否监督(supervised),就看输入数据是否标签(label)。 输入数据有标签,则为监督学习,没标签则为无监督学习。 首先看什么是学习(learning)?一个成语就可概括:举一反三。 这样当特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 在上述的分类过程中,如果所有训练数据都有标签,则为监督学习(supervised learning)。 例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签…… 这时有人可能会想,难道监督学习和无监督学习就是非黑即白的关系吗? 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常极大于标签数据数量(这也是符合现实情况的)。

    84230编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    机器学习(二):监督学习、无监督学习和半监督学习

    监督学习的结果可分为两类:分类或回归。 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常远远大于标签数据数量(这也是符合现实情况的)。 从不同的学习场景看,SSL可分为四大类: 1 半监督分类 半监督分类(Semi-Supervised Classification):是在无类标签的样例的帮助下训练类标签的样本,获得比只用类标签的样本训练得到的分类器性能更优的分类器 2 半监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。

    86820编辑于 2022-09-02
  • 来自专栏全栈程序员必看

    机器学习中的监督学习,无监督学习,半监督学习

    在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning)、 非监督学习(Unsupervised learning)、 半监督学习 非监督学习:直接对输入数据集进行建模,例如聚类。 半监督学习:综合利用类标的数据和没有类标的数据,来生成合适的分类函数。 3、监督式学习两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入物件对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。(如案例推论及最近邻居法)。 学习函数的准确度与输入的物件如何表示是很大的关联度。传统上,输入的物件会被转成一个特征向量,包含了许多关于描述物件的特征。 三、半监督学习 1、半监督学习的基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。

    14.3K31编辑于 2022-09-02
  • 来自专栏全栈程序员必看

    【机器学习笔记】监督学习和无监督学习

    监督学习和无监督学习 (一)什么是机器学习? (二)监督学习 (三)无监督学习 (四)二者的区别 (五)如何在两者中选择合适的方法 (一)什么是机器学习? 监督算法常见的:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。 vs. 无 规律性: 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比监督学习方法的用途要广。 譬如分析一堆数据的主分量(PCA),或分析数据集什么特点都可以归于无监督学习方法的范畴。 分类 vs.聚类:监督的核心是分类,无监督的核心是聚类(将数据集合分成由类似的对象组成的多个类)。 (五)如何在两者中选择合适的方法 根据上面的图也可以进行分类: 简单的方法就是从定义入手,训练样本则考虑采用监督学习方法;无训练样本,则一定不能用监督学习方法。

    4K30编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    监督学习流程图

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140429.html原文链接:https://javaforall.cn

    55110编辑于 2022-09-02
  • 来自专栏海天一树

    机器学习(二):监督学习、无监督学习和半监督学习

    * 监督学习的结果可分为两类:分类或回归。 * 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常远远大于标签数据数量(这也是符合现实情况的)。 * 从不同的学习场景看,SSL可分为四大类: 1 半监督分类 半监督分类(Semi-Supervised Classification):是在无类标签的样例的帮助下训练类标签的样本,获得比只用类标签的样本训练得到的分类器性能更优的分类器 2 半监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。

    2.1K60发布于 2018-04-17
  • 来自专栏全栈程序员必看

    随机森林算法(监督学习)

    这个算法的核心思想就是将多个不同的决策树进行组合,利用这种组合降低单一决策树可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。    2.1、数据的随机选取   首先,从原始的数据集中采取放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。 上图一个原始数据集,利用原始数据集我们根据数据随机选取的方法生成三个新的数据集,然后利用这三个子数据集进行决策树判断。

    57620编辑于 2022-08-31
  • 来自专栏全栈程序员必看

    深度学习#1.监督学习和无监督学习

    机器学习#1.监督学习和无监督学习 人工智能与机器学习与深度学习 机器学习 监督学习 无监督学习 人工智能与机器学习与深度学习 什么是人工智能? 机器学习大概可分为两种:监督学习和无监督学习 监督学习 监督学习的大致过程(以图片识别猫为例): 1. 数据采集(就是找一堆猫的图片,假设是x张,当然数量很庞大,至于多大我也不清楚) 2. 根据学习的结果与真实结果作比较,通过一些公式来计算误差,就知道学得好不好啦(好比学习的结果里面有90%是猫,那么训练的效果就很好了,至于要用什么公式来计算误差,之后再说) 无监督学习 而无监督学习呢,厉害了 ,它不需要人来圈出那些部分是猫,它就能自己识别出什么是猫: 它和监督学习的最大差别在于第二点的特征提取,因为它不用提取,因此也导致了学习的方式与监督学习不一样。

    48320编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    监督学习与无监督学习的几大区别

    当下无监督作为一种热门的机器学习技术,网上有不少关于无监督监督差异讨论的文章。 DataVisor作为率先将无监督技术运用在反欺诈行业的娇娇领先者,我们在本文中,将深入浅出的讲解无监督机器学习技术与监督技术在不同方面的区别,通过对比这两种技术,让大家对无监督反欺诈技术更好的了解 对比一 : 标签 vs 无标签 监督机器学习又被称为“老师的学习”,所谓的老师就是标签。 而无监督的聚类方式通常是很好的解释性的,你问无监督,为什么把他们分成一类?无监督会告诉你,他们多少特征多少的一致性,所以才被聚成一组。你恍然大悟,原来如此! 所以说遇到这种情况也只能选用无监督学习了。 最后,看样本是否独立分布。对于训练样本的情况,看起来采用监督总是比采用无监督好。但有监督学习就像是探索悬崖时的一个安全绳,有着一定的指导作用。

    1.4K30编辑于 2022-08-24
  • 来自专栏GiantPandaCV

    DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调

    前言 在 DeepSpeed-Chat 打造类ChatGPT全流程 笔记一 中跑通了DeepSpeed Chat的训练和推理流程,DeepSpeed Chat的训练流程包含监督指令微调(SFT),Reward 接着上面文章的todo,这篇文章主要是解析一下监督指令微调(SFT)阶段的代码实现。 0x1. Supervised finetuning (SFT) 教程翻译 监督微调(SFT)与在自然语言任务(例如,WikiText-103)上的标准语言模型微调非常相似。 注意,这里特别指出,如果提示以空格结束,那么没有经过微调的原始模型可能会陷入停滞并无法产生响应。微调过的模型在这方面表现得更好。因此,这里所有的提示都以冒号":"结束,以使得比较更有意义。 但这个代码在LoRA微调这部分感觉设计的耦合性一点高,如果要新增新的微调方式比如QLoRA可能写法就不太优雅了。

    1.8K20编辑于 2023-08-22
  • 来自专栏机器之心

    监督、半监督监督全涵盖,四篇论文遍历对比学习的研究进展

    「自监督」和「监督」结合起来,与经典的利用交叉熵(Cross-Entropy)的 「监督」学习相比,引入「自监督」的对比学习,能够学习到更优的表示,显著提高了 ImageNet 分类任务中 Top- 新的工作是一个半监督学习框架(Semi-Supervised Learning Framework),主要包括三部分:(1) 无监督或自监督的预训练;(2)监督微调;(3)使用未标记的数据进一步的蒸馏处理 对于本文所考虑的两种结构,监督的对比损失比交叉熵性能好,超过了 1%。 从文章的分析和给出的实验结果可以看出,加入半监督监督的信息后,图像分类任务的效果得以提升。 在这种情况下,监督学习的应用非常困难,半监督、自监督的学习方法则具有明显优势。

    1.8K20编辑于 2023-03-29
领券