首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏第一专栏

    LLM-TAP随笔——监督微调【深度学习】【PyTorch】【LLM】

    5、 监督微调 5.1、提示学习&语境学习 提示学习 完成预测的三个阶段:提示添加、答案搜索、答案映射 提示添加 “[X] 我感到 [Z]” x = “我不小心错过了公共汽车。” 如下情感分类,续写情感极性: 5.2、高效微调 高效微调:在缩减训练参数量和GPU显存占用,同时使训练后的模型具有与全量微调相当的性能。 全量微调微调全部参数需要相当高的算力。 前缀微调( Prefix Tuning) 前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。 (x,m) = f(x,\frac{m}{L'})L 将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L) 5.4、指令数据构建 指令数据的质量和多样性是衡量指令数据的重要维度,影响监督微调过程的关键因素 LLaMA 模型上进行监督微调得到 Alpaca 模型, 所使用的指令数据集的示例 5.5、开源指令数据集 开源数据指令集

    71040编辑于 2023-09-26
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调 使用目标任务的训练集对预训练模型进行微调 4. 对于 Transformer 的每一层结构,自注意力层的参数量为4⋅d2,即WQ、WQ、WQ和WQ ∈Rd×d;FF 层的参数量为8⋅d2,即W1​∈Rd×4d,W2​∈Rd×4d。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    10.1K66编辑于 2023-10-11
  • 来自专栏NLP/KG

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

    人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 4. 对于 Transformer 的每一层结构,自注意力层的参数量为4⋅d2,即WQ、WQ、WQ和WQ ∈Rd×d;FF 层的参数量为8⋅d2,即W1∈Rd×4d,W2∈Rd×4d。 5.关键知识点总结 SFT监督微调监督微调时,学习率通常会设置得很小 常见误区:1.监督微调需要大量的训练时间和数据 2.监督微调将复制源模型的所有参数至目标模型 3.监督微调只需要几十条监督数据即可

    25.6K07编辑于 2023-07-16
  • 来自专栏datartisan

    监督or监督

    监督数据挖掘算法和监督数据挖掘算法的主要区别在于数据集的标签信息。 监督数据挖掘算法: 1. 特点:监督数据挖掘算法适用于已知数据集的输入和输出关系的情况。 2. 无监督数据挖掘算法: 1. 特点:无监督数据挖掘算法适用于没有标签信息的情况。算法的主要目标是发现数据内部的结构和规律,而不是建立输入和输出之间的映射关系。 2. 过程:无监督算法通过聚类、降维、关联规则挖掘等方法,对数据进行内部组织,从而找出数据之间的关联性或相似性。 3. 总结: 监督数据挖掘算法关注于建立输入和输出之间的映射关系,用于预测未知数据的输出。而无监督数据挖掘算法关注于发现数据内部的结构和规律,用于挖掘数据之间的关联性或相似性。

    41210编辑于 2023-10-29
  • 来自专栏111222444

    SFT 监督微调基本概念

    1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。 微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。 1.2 监督微调的步骤 具体来说,监督微调包括以下几个步骤: 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练; 微调: 使用目标任务的训练集对预训练模型进行微调 通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。 在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好; 评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。 1.3 监督微调的特点

    27700编辑于 2025-10-13
  • 来自专栏拓端tecdat

    JupyterLab实现医疗推理数据集Llama4Scout的4-bit量化、LoRA低秩适配、SFT监督微调|轻量化适配

    基于此,我们在客户咨询项目中开展了Llama 4 Scout模型的低成本微调技术研究,创新性地采用云GPU平台搭建多GPU训练环境,将原本需要4张高端GPU的微调任务成本控制在极低水平,同时针对医疗推理场景完成了模型的监督微调 LoRA低秩适配配置与SFT监督微调为了实现大模型的高效、低成本微调,本次项目采用LoRA(低秩适配)技术,该技术是大模型垂直领域适配的主流技术,核心原理是冻结基础模型的绝大部分参数,仅训练少量新增的低秩矩阵参数 同时搭配SFT(监督微调)训练器,结合格式化后的医疗推理数据集,完成模型的针对性训练。 微调后模型的医疗推理能力验证完成模型的SFT监督微调后,我们对微调后的模型开展全面的推理能力验证,既使用与微调前相同的医学问题进行对比测试,也选取新的医学问题开展泛化能力测试,全面检验模型经过医疗数据集微调后的推理能力提升效果 ,结合医疗专业数据集开展SFT监督微调,让通用大模型快速具备垂直领域的专业推理能力,大幅提升模型的行业适配性;模型训练效率低问题:采用LoRA低秩适配技术,冻结基础模型绝大部分参数,仅训练少量低秩矩阵参数

    13510编辑于 2026-02-10
  • 来自专栏讲编程的高老师

    吴恩达机器学习笔记4-监督学习

    “ 本次视频讲解什么是监督学习,重点讲了回归问题、分类问题。” 01 — 视频 02 — 笔记 本次视频,吴老师通过两个例子给我们讲解了什么是监督的机器学习。 这里面又包括了监督学习常被用来解决的两类问题:回归问题、分类问题。 2.1 什么是监督的机器学习? 在本视频中,吴老师并没有给出监督学习的非常学术化的定义。 他通过两个例子来引导我们认识监督学习。 假设你手上有这样一些数据,如下面图所示。 你知道了一些已经卖出去的房子的面积和价格,然后给你一个新的房子让你预测一下它的售价,像这样由一组已知了自变量(房屋面积)、因变量(房屋售价)的数据让你去预测新的自变量对应的因变量的学习问题,就叫做监督学习 两个机器学习任务: 假设有一个商品,存量挺大的,让你预测接下来3个月将会卖掉多少。 假设你开发了一个款软件很多用户,让你判断每个用户是不是被黑客攻击了。

    66020发布于 2020-08-14
  • 来自专栏AI SPPECH

    99_监督微调:Alpaca数据集格式与实现

    本文将深入探讨监督微调的原理、Alpaca数据集格式的设计理念,以及如何在实际项目中实现高效的监督微调过程。 欢迎来到我们的咖啡世界,这里香浓的咖啡,舒适的环境,还有温暖的服务,让您的每一次到访都成为一次愉悦的体验。" 4. 构建Alpaca格式数据集的最佳实践 4.1 数据收集策略 构建高质量的Alpaca格式数据集是成功进行监督微调的基础。 pip install tensorboardX==2.6 5.1.2 硬件要求 监督微调的硬件要求取决于模型大小和微调方法: 全参数微调:需要大量GPU内存,对于7B参数的模型,通常需要2-4张A100 不同框架实现监督微调的比较 在实际应用中,多种框架可以用于实现基于Alpaca格式的监督微调

    61411编辑于 2025-11-16
  • 来自专栏数据科学与人工智能

    监督学习和无监督学习

    一般情况下,机器学习分为监督学习和无监督学习。 监督学习 监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。 因为输入和输出已知,意味着输入和输出之间一个关系,监督学习算法就是要发现和总结这种“关系”。 监督学习问题分为回归和分类问题。 无监督学习 无监督学习是指对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。 我们基于数据中的变量之间关系利用聚类算法发现这种内在模式或者结构。

    1.6K50发布于 2018-02-28
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:大模型三大适应技术详解:监督微调、提示学习与语境学习

    针对中小企业或技术储备有限的使用者,行业已探索出多条轻量化、低门槛的落地路径,其中有监督微调、提示学习与语境学习最为核心,它们能帮我们绕开大规模硬件投入与复杂技术壁垒,高效发挥大模型的能力:监督微调: 一、监督微调1. 微调后的模型在相同任务上表现更加一致,大大减少了不受控的“幻觉”输出。简而言之,监督微调的目标是打造一个在特定领域内表现卓越、行为可靠、高度专业化的专家模型。二、提示学习1. 优化与部署阶段(监督微调):当通过轻量级方法验证了需求,但性能、稳定性和准确性仍不满足生产要求时,就会投入资源,收集数据,进行监督微调。 第二层(监督微调):“深度定制”的高性能方案。当轻量级方案无法满足性能、稳定性和专业化要求时,投入资源进行微调,打造不可替代的核心竞争力。

    35832编辑于 2026-01-19
  • 来自专栏全栈程序员必看

    监督学习、无监督学习以及半监督学习详解

    相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)? 监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的 过程,也称为监督训练或有教师学习。 监督学习一种应用场景:回归和分类。 回归(Regression) 回归问题是针对于连续型变量的。 举个栗子:预测房屋价格 假设想要预测房屋价格,绘制了下面这样的数据集。 给定数据,假设一个人一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。 这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。 半监督学习 半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。

    3.1K20编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    监督学习VS无监督学习「建议收藏」

    这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。 这个问题可以回答得很简单:是否监督(supervised),就看输入数据是否标签(label)。 输入数据有标签,则为监督学习,没标签则为无监督学习。 首先看什么是学习(learning)?一个成语就可概括:举一反三。 这样当特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 在上述的分类过程中,如果所有训练数据都有标签,则为监督学习(supervised learning)。 例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签…… 这时有人可能会想,难道监督学习和无监督学习就是非黑即白的关系吗? 对于半监督学习,其训练数据的一部分是标签的,另一部分没有标签,而没标签数据的数量常常极大于标签数据数量(这也是符合现实情况的)。

    84730编辑于 2022-09-01
  • 来自专栏数据分析与挖掘

    用GPT4进行指令微调

    在本文中,我们首次尝试使用GPT-4来生成指令伴随数据 ,以进行LLM的微调。 这可以通过使用人类注释的提示和反馈在广泛的任务上对模型进行微调(Ouyang等人,2022),或者使用公共基准和数据集,用手动或自动生成的指令进行监督微调(Wang等人,2022b)。 为了推进LLMs的指令调谐技术水平,我们首次提出将GPT-4作为自我指令调谐的教师。我们的论文以下贡献: GPT-4数据。 指令微调的语言模型 self-instruct微调 我们使用LLaMA 7B检查点的监督微调来训练两个模型:(i)LLaMA-GPT4是在GPT-4产生的52K英语指令跟随数据上训练的,其分布情况显示在图 因此,继续收集更多的GPT-4指令跟随数据,与ShareGPT数据结合,并训练更大的LLaMA模型以提高性能是希望的。(ii) RLHF。

    1.8K20编辑于 2023-04-08
  • 来自专栏全栈程序员必看

    【机器学习笔记】监督学习和无监督学习

    监督学习和无监督学习 (一)什么是机器学习? (二)监督学习 (三)无监督学习 (四)二者的区别 (五)如何在两者中选择合适的方法 (一)什么是机器学习? 监督算法常见的:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。 譬如分析一堆数据的主分量(PCA),或分析数据集什么特点都可以归于无监督学习方法的范畴。 分类 vs.聚类:监督的核心是分类,无监督的核心是聚类(将数据集合分成由类似的对象组成的多个类)。 (五)如何在两者中选择合适的方法 根据上面的图也可以进行分类: 简单的方法就是从定义入手,训练样本则考虑采用监督学习方法;无训练样本,则一定不能用监督学习方法。 p=4 如果您在阅读之中发现文章错误之处或者出现疑问,欢迎在评论指出。

    4K30编辑于 2022-09-01
  • 来自专栏全栈程序员必看

    机器学习中的监督学习,无监督学习,半监督学习

    在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning)、 非监督学习(Unsupervised learning)、 半监督学习 非监督学习:直接对输入数据集进行建模,例如聚类。 半监督学习:综合利用类标的数据和没有类标的数据,来生成合适的分类函数。 3、监督式学习两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入物件对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。(如案例推论及最近邻居法)。 学习函数的准确度与输入的物件如何表示是很大的关联度。传统上,输入的物件会被转成一个特征向量,包含了许多关于描述物件的特征。 4)决定要学习的函数和其对应的学习算法所使用的数据结构。譬如,工程师可能选择人工神经网络和决策树。 5)完成设计。工程师接着在搜集到的资料上跑学习算法。

    14.3K31编辑于 2022-09-02
  • 来自专栏全栈程序员必看

    机器学习(二):监督学习、无监督学习和半监督学习

    4 分类(classification) 定性输出称为分类,或者说是离散变量预测。 举例:预测明天是阴、晴还是雨,就是一个分类任务。 监督学习的结果可分为两类:分类或回归。 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 2 半监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。 4监督降维 半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束

    87520编辑于 2022-09-02
  • GLM4-9B-chat Lora 微调

    本节我们简要介绍如何基于 transformers、peft 等框架,对 LLaMA3-8B-Instruct 模型进行 Lora 微调。 https://www.codewithgpu.com/i/datawhalechina/self-llm/GLM-4 在本节教程里,我们将微调数据集放置在根目录 /dataset。 9b-chat', cache_dir='/root/autodl-tmp/glm-4-9b-chat', revision='master') 指令集构建 LLM 的微调一般指指令微调过程。 所谓指令微调,是说我们使用的微调数据形如: { "instruction": "回答以下用户问题,仅输出答案。", "input": "1+1等于几?" ", "dense_4h_to_h"], # 现存问题只微调部分演示即可 inference_mode=False, # 训练模式 r=8, # Lora 秩 lora_alpha

    39410编辑于 2025-07-21
  • 来自专栏全栈程序员必看

    监督学习流程图

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140429.html原文链接:https://javaforall.cn

    55110编辑于 2022-09-02
  • 来自专栏海天一树

    机器学习(二):监督学习、无监督学习和半监督学习

    * 4 分类(classification) 定性输出称为分类,或者说是离散变量预测。 *举例:预测明天是阴、晴还是雨,就是一个分类任务。 * 监督学习的结果可分为两类:分类或回归。 * 四、半监督学习(semi-supervised learning) 监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。 2 半监督回归 半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练输出的输入,获得比只用输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。 4监督降维 半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise

    2.1K60发布于 2018-04-17
  • 来自专栏全栈程序员必看

    随机森林算法(监督学习)

    这个算法的核心思想就是将多个不同的决策树进行组合,利用这种组合降低单一决策树可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。    2.1、数据的随机选取   首先,从原始的数据集中采取放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。 上图一个原始数据集,利用原始数据集我们根据数据随机选取的方法生成三个新的数据集,然后利用这三个子数据集进行决策树判断。

    57920编辑于 2022-08-31
领券