首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调 使用目标任务的训练集对预训练模型进行微调 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可 监督微调常见任务:1.用中文预训练BERT模型完成中文实体识别任务 2.训练语言模型GPT3 3.UIE模型在垂直领域的数据集上微调 常见误区:在ImageNet上的预训练的模型再来训练目标检测任务 (则不是) 目前,主流的SFT监督方法包括:LoRA、P-tuning v2、Freeze LoRA微调方法预训练的模型参数不参与微调,LoRA微调方法一般会在各层新增参数,LoRA微调方法的核心思想是利用高阶矩阵秩的分解来减少微调参数量

    10.1K66编辑于 2023-10-11
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可 监督微调常见任务:1.用中文预训练BERT模型完成中文实体识别任务 2.训练语言模型GPT3 3.UIE模型在垂直领域的数据集上微调 常见误区:在ImageNet上的预训练的模型再来训练目标检测任务 (则不是) 目前,主流的SFT监督方法包括:LoRA、P-tuning v2、Freeze LoRA微调方法预训练的模型参数不参与微调,LoRA微调方法一般会在各层新增参数,LoRA微调方法的核心思想是利用高阶矩阵秩的分解来减少微调参数量

    25.6K07编辑于 2023-07-16
  • 来自专栏第一专栏

    LLM-TAP随笔——监督微调【深度学习】【PyTorch】【LLM】

    5、 监督微调 5.1、提示学习&语境学习 提示学习 完成预测的三个阶段:提示添加、答案搜索、答案映射 提示添加 “[X] 我感到 [Z]” x = “我不小心错过了公共汽车。” 如下情感分类,续写情感极性: 5.2、高效微调 高效微调:在缩减训练参数量和GPU显存占用,同时使训练后的模型具有与全量微调相当的性能。 全量微调微调全部参数需要相当高的算力。 \frac{1}{a^2},... (x,m) = f(x,\frac{m}{L'})L 将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L) 5.4、指令数据构建 指令数据的质量和多样性是衡量指令数据的重要维度,影响监督微调过程的关键因素 LLaMA 模型上进行监督微调得到 Alpaca 模型, 所使用的指令数据集的示例 5.5、开源指令数据集 开源数据指令集

    71040编辑于 2023-09-26
  • 来自专栏datartisan

    监督or监督

    监督数据挖掘算法和监督数据挖掘算法的主要区别在于数据集的标签信息。 监督数据挖掘算法: 1. 特点:监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 总结: 监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。

    41210编辑于 2023-10-29
  • 来自专栏111222444

    SFT 监督微调基本概念

    1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。 微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。 在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好; 评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。 1.3 监督微调的特点

    27700编辑于 2025-10-13
  • 来自专栏AI SPPECH

    99_监督微调:Alpaca数据集格式与实现

    本文将深入探讨监督微调的原理、Alpaca数据集格式的设计理念,以及如何在实际项目中实现高效的监督微调过程。 监督微调的工作流程 预训练模型 → 高质量标注数据 → 参数调整 → 特定任务适配 → 评估与优化 2. 欢迎来到我们的咖啡世界,这里香浓的咖啡,舒适的环境,还有温暖的服务,让您的每一次到访都成为一次愉悦的体验。" pip install tensorboardX==2.6 5.1.2 硬件要求 监督微调的硬件要求取决于模型大小和微调方法: 全参数微调:需要大量GPU内存,对于7B参数的模型,通常需要2-4张A100 不同框架实现监督微调的比较 在实际应用中,多种框架可以用于实现基于Alpaca格式的监督微调

    61411编辑于 2025-11-16
  • 来自专栏数据科学与人工智能

    监督学习和无监督学习

    一般情况下,机器学习分为监督学习和无监督学习。 监督学习 监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。 因为输入和输出已知,意味着输入和输出之间一个关系,监督学习算法就是要发现和总结这种“关系”。 监督学习问题分为回归和分类问题。 例子2: 回归:根据人的照片预测图片中人的年龄。 分类:对于肿瘤患者,预测肿瘤是恶性还是良性。 思考环节: 举例说明回归问题和分类问题? 无监督学习 无监督学习是指对无标签数据的一类学习算法。 例子2: 市场客群划分。 思考环节: 举例说明聚类算法的应用场景?

    1.6K50发布于 2018-02-28
  • 来自专栏点云PCL

    SOLD2:自监督遮挡的检测和描述线段

    与检测和描述特征点特征相比,检测和匹配线段是更具有挑战的任务,然而,对于多视图任务,线特征是对点特征的补充,线段特征即使在纹理较差的区域也经常出现,在此介绍第一个在单个深度网络中联合检测和描述线段的方法,采用了自监督训练方法 主要贡献 在 sold2中,作者联合学习了线段的检测与描述,受LCNN 和Super-Point的启发,文章引入了一个可以在没有任何标签的图像数据集上进行训练的自监督网络,在合成数据集上进行预训练后,将 总结来说,其所作出的贡献以下三点: (1)提出了首个用于联合线段检测和描述子的深度网络; (2)自监督的线段检测方法,使其能在任一真实图像数据集上进行训练; (3)线匹配对遮挡具有一定的鲁棒性,在图像匹配任务上实现了 与其他方法进行对比的线段检测效果: 总结 sold2作为首个用于图像中线段联合检测与描述的深度学习方法,采用自监督训练方案,可以推广应用于绝大多数图像数据集,同时,受益于深层特征描述子的识别能力, 能够处理在被遮挡和定位不佳的线端点等线段描述中的常见问题 虽然与目前已经较为成熟的特征点匹配技术相比, 还存在许多需要继续改进的地方,也仍然很长的一段距离。 注:论文可在知识星球中下载。

    1.3K30编辑于 2022-04-06
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型三大适应技术详解:监督微调、提示学习与语境学习

    一、监督微调1. 2. 通俗理解 简单来说,将一个大模型进行监督微调,就是给他特定任务数据进行训练学习,使其成为深度契合业务的专业能手,好比招聘一位博学的通用型大学毕业生,然后送他去参加专业的岗前培训。 监督微调,就是为他安排的岗前实习:1. 提供学习材料:我们给他一堆实际业务中的标准问答,特定的标注数据,比如“病人说头痛发烧,应该考虑感冒”。2. 实习与纠错:他一开始会答错。 监督微调(深度改造):如图右侧路径,它通过更新模型的权重参数来从根本上改变模型。这是一种更深层次的介入,相当于对模型的大脑神经网络进行了一次外科手术或岗前培训,使其内在能力发生了定向改变。2. 优化与部署阶段(监督微调):当通过轻量级方法验证了需求,但性能、稳定性和准确性仍不满足生产要求时,就会投入资源,收集数据,进行监督微调

    35832编辑于 2026-01-19
  • 来自专栏DeepHub IMBA

    使用QLoRa微调Llama 2

    上篇文章我们介绍了Llama 2的量化和部署,本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。 因为在训练脚本时将使用它下载预训练的Llama 2模型和数据集。 最后就是请求访问Llama 2模型。等待Meta AI和HF的邮件。这可能要1-2天。 准备数据集 指令微调是一种常用技术,用于为特定的下游用例微调基本LLM。 love... ### Response: friendly" }, { "text": "Below is an instruction ... ### Instruction: ..." } 很多很多方法可以提取原始数据 TRL也提供的监督微调(SFT)训练器API可以让我们快速的微调模型。 !pip install -q huggingface_hub !

    90910编辑于 2023-08-30
  • 来自专栏全栈程序员必看

    监督学习、无监督学习以及半监督学习详解

    相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)? (2) 机器学习是对能通过经验自动改进的计算机算法的研究。 (3) 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 重温了机器学习的基础概念之后,我们正式进入我们的正文部分。 监督学习一种应用场景:回归和分类。 回归(Regression) 回归问题是针对于连续型变量的。 举个栗子:预测房屋价格 假设想要预测房屋价格,绘制了下面这样的数据集。 给定数据,假设一个人一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。 这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。 生活中的应用: 1.Google新闻按照内容结构的不同分成财经,娱乐,体育等不同的标签,这就是无监督学习中的聚类。 2.根据给定基因把人群分类。

    3.1K20编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    监督学习VS无监督学习「建议收藏」

    这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。 这个问题可以回答得很简单:是否监督(supervised),就看输入数据是否标签(label)。 输入数据有标签,则为监督学习,没标签则为无监督学习。 首先看什么是学习(learning)?一个成语就可概括:举一反三。 例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签…… 这时有人可能会想,难道监督学习和无监督学习就是非黑即白的关系吗? 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常极大于标签数据数量(这也是符合现实情况的)。 ↕ 半监督聚类(标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy) ↕ 无监督学习(聚类) 参考文献: [1] 各种教材 [2] Semi-Supervised

    84730编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    【机器学习笔记】监督学习和无监督学习

    监督学习和无监督学习 (一)什么是机器学习? (二)监督学习 (三)无监督学习 (四)二者的区别 (五)如何在两者中选择合适的方法 (一)什么是机器学习? 数学说明: 监督学习从训练数据集合中训练模型,再对测试据进行预测,训练数据由输入和输出对组成,通常表示为: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x i , y i ) } T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right ) ,\cdots ,\left ( x _{i},y_{i} \right )\right \} T={ (x1​,y1​),(x2​,y2​),⋯,(xi​,yi​)} 测试数据也由相应的输入输出对组成。 (五)如何在两者中选择合适的方法 根据上面的图也可以进行分类: 简单的方法就是从定义入手,训练样本则考虑采用监督学习方法;无训练样本,则一定不能用监督学习方法。

    4K30编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    机器学习中的监督学习,无监督学习,半监督学习

    监督学习:直接对输入数据集进行建模,例如聚类。 半监督学习:综合利用类标的数据和没有类标的数据,来生成合适的分类函数。 2、一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。 3、监督式学习两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入物件对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。(如案例推论及最近邻居法)。 学习函数的准确度与输入的物件如何表示是很大的关联度。传统上,输入的物件会被转成一个特征向量,包含了许多关于描述物件的特征。 2、无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

    14.3K31编辑于 2022-09-02
  • 来自专栏全栈程序员必看

    机器学习(二):监督学习、无监督学习和半监督学习

    举例:书的内容 2 标签(label) 数据的标签。 举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。 监督学习的结果可分为两类:分类或回归。 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常远远大于标签数据数量(这也是符合现实情况的)。 2监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。

    87520编辑于 2022-09-02
  • 来自专栏生信补给站

    ggplot2-图形微调(1)

    ggplot2包中的annotate()函数帮助用户给图形的指定位置添加注释,一般注释可以从点、线和面的角度进行修饰,对应的geom参数是text、segment、pointrange、rect。 )*e^-log(2,x)', parse = TRUE, size = 3, colour = 'red') p2 ? 二 图形坐标轴信息修改 坐标轴显示范围 p3 <- p2 + scale_x_continuous(limits = c(2014,2022)) ;p3 ## 一般使用倍数来限定大小,最小值个0 p3 <- p1 + xlim(min(test 坐标轴刻度、标签 # X 轴每隔 2 个单位显示一个刻度 ; 改变刻度文字,label要与刻度一样多 p2 + scale_x_continuous(breaks =seq(2015, 2020, 2) , labels = c("A","B","C")) 横坐标轴相关设置 ##只去掉 X 轴的刻度标签 p4 <- p2 + theme(axis.ticks.x

    1.8K30发布于 2020-08-06
  • 来自专栏全栈程序员必看

    监督学习流程图

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140429.html原文链接:https://javaforall.cn

    55110编辑于 2022-09-02
  • 来自专栏海天一树

    机器学习(二):监督学习、无监督学习和半监督学习

    *举例:书的内容* 2 标签(label) 数据的标签。 *举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。 * 监督学习的结果可分为两类:分类或回归。 * 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常远远大于标签数据数量(这也是符合现实情况的)。 2监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。

    2.1K60发布于 2018-04-17
  • 来自专栏全栈程序员必看

    随机森林算法(监督学习)

    这个算法的核心思想就是将多个不同的决策树进行组合,利用这种组合降低单一决策树可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。    2.1、数据的随机选取   首先,从原始的数据集中采取放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。 上图一个原始数据集,利用原始数据集我们根据数据随机选取的方法生成三个新的数据集,然后利用这三个子数据集进行决策树判断。 假设随机森林中就有这么3棵子决策树,2棵子树的分类结果是A类,1棵子树的分类结果是B类,那么根据投票原则随机森林的分类结果就是A类。

    57920编辑于 2022-08-31
  • 来自专栏全栈程序员必看

    监督学习与无监督学习的几大区别

    当下无监督作为一种热门的机器学习技术,网上有不少关于无监督监督差异讨论的文章。 DataVisor作为率先将无监督技术运用在反欺诈行业的娇娇领先者,我们在本文中,将深入浅出的讲解无监督机器学习技术与监督技术在不同方面的区别,通过对比这两种技术,让大家对无监督反欺诈技术更好的了解 对比一 : 标签 vs 无标签 监督机器学习又被称为“老师的学习”,所谓的老师就是标签。 但是,如果你想探究为什么这样,监督会告诉你:因为我们给每个字段乘以了一个参数列[w1, w2, w3…wn]。你继续追问:为什么是这个参数列?为什么第一个字段乘以了0.01而不是0.02? 而无监督的聚类方式通常是很好的解释性的,你问无监督,为什么把他们分成一类?无监督会告诉你,他们多少特征多少的一致性,所以才被聚成一组。你恍然大悟,原来如此!

    1.4K30编辑于 2022-08-24
领券