首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CreateAMind

    大语言模型的可扩展贝叶斯适配

    在本研究中,我们提出了基于随机变分子空间推理的可扩展贝叶斯适应方法(ScalaBL)。我们在一个r维子空间中进行贝叶斯推理(r为LoRA的)。 例如,在对一个拥有70亿参数、嵌入维度 d=3584的大模型进行微调时,若LoRA r=8,BLoB需要数百万个额外参数,而ScalaBL仅需约1000个。 2.1 适应(Low-Rank Adaptation) 2.2 拉普拉斯LoRA Yang 等人 [2024a] 的工作是将不确定性量化技术应用于 LoRA 层的首个研究实例,其方法是对参数应用拉普拉斯近似 即将 A重新视为一个高斯分布的均值,记为 Aμ,并学习一组方差参数 Aσ。 r=8

    12710编辑于 2026-03-11
  • 来自专栏时空探索之旅

    AI论文速读 | ST-LoRA:适配的时空预测

    具体来说,首先定制一个包含多个可训练矩阵的节点自适配层。此外,设计了一个多层残差融合堆叠模块,将适配器注入到各种模型的预测器模块中。 论文的核心思想是通过引入节点自适配层(Node Adaptive Low-rank Layer, NALL)和多层残差融合模块,来有效地将适配器注入到不同模型的预测器模块中,从而提高模型对不同节点异质性的适配能力 (b) 适配器块的计算过程,(c) 使用矩阵计算节点级权重调整 A: 论文通过提出一个名为ST-LoRA(适配)的框架来解决时空预测中节点异质性的问题。 方法论: 提出了节点自适配层(NALL),通过在每个节点上添加可训练的矩阵来调整原始参数权重,以捕捉节点的异质性。 设计了多层残差融合模块,将适配器注入到不同模型的预测器模块中,以提高模型对节点异质性的适配能力。

    51710编辑于 2024-11-19
  • 来自专栏具身小站

    大模型微调概述 - LoRA(适应)

    数学上,对于一个 d×k 的权重矩阵 W₀,其更新量 ΔW 可以表示为: ΔW=B×A 其中: r 远小于 min(d, k) ,通常 r = 1, 2, 4, 8, 16 等。 尽管预训练模型本身是高维复杂的,但针对特定任务的适应性调整往往是维的。例如,模型原本已经学会了通用语法和知识,要适应某个特定领域的对话,只需要在几个关键方向上微调即可,这些方向就对应着子空间。 推理阶段:LoRA 提供两种推理方式: 合并式:将训练好的矩阵合并回原始权重:。然后直接使用合并后的权重进行推理,没有额外的计算开销。 分离式:保留原始权重和分支,在前向时分别计算后相加。 可插拔性强:训练好的 LoRA 模块(通常仅几 MB 到几十 MB)可以轻松保存、分享和加载,且可以针对不同任务训练多个 LoRA 模块,在推理时按需切换,实现“一基座多适配”。 实践中常见 r=8 或 16 能在效果和效率之间取得良好平衡。 缩放因子 α:用于调节分支的梯度更新幅度。如果训练不稳定,可以适当调整 α。 应用哪些层?:并非所有层都需要 LoRA。

    69320编辑于 2026-03-09
  • 来自专栏拓端tecdat

    JupyterLab实现医疗推理数据集Llama4Scout的4-bit量化、LoRA适配、SFT有监督微调|轻量化适配

    LoRA适配配置与SFT有监督微调为了实现大模型的高效、低成本微调,本次项目采用LoRA(适配)技术,该技术是大模型垂直领域适配的主流技术,核心原理是冻结基础模型的绝大部分参数,仅训练少量新增的矩阵参数 LoRA适配核心参数配置from peft import LoraConfig, get_peft_model# 配置LoRA适配训练参数,修改所有变量名lora_config = LoraConfig ( lora_alpha=16, # LoRA缩放因子,平衡矩阵贡献 lora_dropout=0.05, # Dropout概率,防止模型训练过拟合 r=64, # 矩阵的,控制训练参数数量 :针对医疗推理场景设计专属的Prompt工程,结合医疗专业数据集开展SFT有监督微调,让通用大模型快速具备垂直领域的专业推理能力,大幅提升模型的行业适配性;模型训练效率问题:采用LoRA适配技术, 总结本文基于实际的客户咨询项目,详细拆解了如何通过云GPU平台实现Llama 4 Scout大模型的低成本、轻量化微调,通过4-bit量化、LoRA适配、多GPU分布式训练等技术优化,将原本需要4张高端

    13510编辑于 2026-02-10
  • 来自专栏DeepHub IMBA

    LoRA:大模型的自适应微调模型

    所以Microsoft 提出了自适应(Low-Rank Adaptation, LoRA),它冻结了预先训练好的模型权重,并将可训练的的分解矩阵注入到Transformer体系结构的每一层,从而大大减少了下游任务的可训练参数数量 LoRA 对于预训练的权重矩阵W0,可以让其更新受到用分解表示后者的约束: 在训练过程中,W0被冻结,不接受梯度更新,而A和B包含可训练参数。

    99720编辑于 2023-08-28
  • 来自专栏计算机技术-参与活动

    python中权重剪枝,分解,量化技术 代码

    同时,文章还讨论了数据传输中的安全性问题,提出了不依赖加密算法的数据传输安全方案​目录python中权重剪枝,分解,量化技术 代码权重剪枝分解scipy量化技术python中权重剪枝,分解, prune.l1_unstructured(model.conv1, name='weight', amount=0.2)# 微调剪枝后的模型# 这里省略了微调的代码实现,但通常包括继续训练模型以恢复性能分解分解可以通过将权重矩阵分解为两个矩阵的乘积来实现 以下是一个使用PyTorch实现分解的简单例子:scipy在Python中,可以使用scipy库中的svd函数来实现奇异值分解(Singular Value Decomposition, SVD)。 math.sqrt(5)) def forward(self, x): return torch.matmul(torch.matmul(x, self.A), self.B)# 使用分解替换全连接层 # 假设原始权重矩阵为W,现在将其替换为两个矩阵的乘积rank = 10 # 假设我们希望分解后的为10low_rank_layer = LowRankDecomposition(in_features

    28811编辑于 2024-12-04
  • 来自专栏晓飞的算法工程笔记

    LORS:腾讯提出残差结构,瘦身模型不掉点 | CVPR 2024

    为了缓解这个问题,LORS(残差结构)允许堆叠模块共享大部分参数,每个模块仅需要少量的唯一参数即可匹配甚至超过全量参数的性能。 为了实现这一目标,受LoRA方法的启发,论文引入了残差结构 (LORS) 的概念,本质上是将私有参数添加到共享参数中,就像残差连接将残差信息添加到特征中一样。  总之,论文的贡献可以总结为:论文提出了用于堆叠网络的新颖残差结构LORS,与普通结构相比,在大幅减少参数数量的同时保持甚至提高性能。 LoRA的关键思想是引入一个参数矩阵,该矩阵能够捕获任务相关的知识,同时保持原始预训练参数固定。  值方面,$\mathrm{LORS}^\mathrm{A}$ 设置为 $r=16$,$\mathrm{LORS}^\mathrm{T}$ 设置为 $r=8$。 

    49210编辑于 2024-04-22
  • 来自专栏时空探索之旅

    论文精读|2024ImputeFormer: 用于广义时空补全的诱导的Transformer

    ,傅里叶变换,注意力模块,线性复杂度。 时空数据与时间序列通常表现为一种“”分布,即其总体模式可以由几个显著成分主导。因此近年来,矩阵分解和张量补全成为了时空插补的数值高效技术。 具体来说,ImputeFormer通过以下几个关键技术来实现表达性和: 性引入:利用时空数据的内在结构,ImputeFormer在Transformer模型中引入了性,以实现信号与噪声之间的平衡 图8:空间注意力可视化 图11:时间注意力可视化 图13:补全结果可视化 论文中进行了一系列的实验来评估ImputeFormer模型的性能,并与现有的先进方法进行了比较。 ImputeFormer模型:结合了特性和Transformer模型的优势,通过引入性约束到Transformer框架中,实现了信号与噪声之间的平衡。

    1.1K10编辑于 2024-11-19
  • 来自专栏GiantPandaCV

    ICML 2023 LoSparse:近似和结构化剪枝的有机组合

    标题:ICML 2023 | LoSparse:近似和结构化剪枝的有机组合 收录于合集 #近似 #ICML 2023 #结构化剪枝 1. 近似压缩神经元中的连贯和表达部分,而修剪去除神经元中的不连贯和非表达部分。从这个意义上说,近似可以防止剪枝过度去除表达神经元,而稀疏近似增强了近似的多样性。 3. 因此,本文引入了一个矩阵来改进近似。 r 的矩阵。 的矩阵。

    1.5K50编辑于 2023-08-22
  • 来自专栏我爱计算机视觉

    CVPR 2024 | LORS算法:残差结构用于参数高效网络堆叠,参数少、成本、内存小

    为了实现这个目标,本文受到LoRA模块启发提出了残差结构模块(Low-rank Residual Structure,LORS)。 方法 LoRA简介 适应(Low-rank Adaption,LoRA)核心思想是引入一个能够不住哦特定任务知识的参数矩阵,同时保持原始的预训练参数固定。 数学上,给定预训练参数矩阵 W\in \mathbb{R}^{d\times h} ,LoRA模块使用一个矩阵 B\in \mathbb{R}^{d\times r} 和一个投影矩阵 A\in 静态残差结构(Static Low Rank Residual Structure,LORS^T^) 假设有N个有相同架构的堆叠层模块, W_{i}\in \mathbb{R}^{d\times h 对于LORS^A^值设置为 r=16 ,LORS^T^值设置为 r=8

    78610编辑于 2024-04-30
  • 来自专栏晓飞的算法工程笔记

    MicroNet: 近似分解卷积以及超强激活函数,碾压MobileNet | 2020新文分析

    的性能十分强劲undefined  来源:晓飞的算法工程笔记 公众号 论文: MicroNet: Towards Image Recognition with Extremely Low FLOPs [38f8e718eb7e416ae5edddc8e9c9c228 Micro-Factorized Convolution主要是对MobileNet的深度分离卷积进行更轻量化的改造,对pointwise convolution和depthwise convolution进行近似 Micro-Factorized Pointwise Convolution [3a4482f8ddd439833c29f8a72b791413.png]   论文将pointwise convoluton 可以看到,尽管这样的设计很简单,但依然能够有效地提升输入输出的关联性(矩阵$W$的也从1升为2)。 e6f0e747eb9b1c3f9e4e48d55c568852.png]   论文设计了3种不同的Mircro-Block,里面均包含了Dynamic Shift-Max作为激活函数: Micro-Block-A:使用lite组合,对分辨率较高的维特征特别有效

    57030编辑于 2022-04-11
  • 来自专栏Hadoop数据仓库

    HAWQ + MADlib 玩转数据挖掘之(四)——矩阵分解实现推荐算法

    一般假设原始矩阵是的,我们可以从给定的值来还原这个矩阵。由于直接求解矩阵从算法以及参数的复杂度来说效率很低,因此常用的方法是直接把原始矩阵分解成两个子矩阵相乘。 图9 二、MADlib矩阵分解函数         从前面的介绍可以知道,Latent Factor推荐算法关键点在于评分矩阵的UV分解,求得P/Q两个矩阵。 三、矩阵分解函数实现推荐算法示例           用lmf_igd_run函数分解图4所示的矩阵,并生成相应的推荐矩阵。 1. 推荐系统中的矩阵分解,假设推荐矩阵是两个矩阵相乘,有何依据:说明假设的意义。 浅谈矩阵分解在推荐系统中的应用:矩阵分解的数学推导。 Machine Learning第九讲[推荐系统] --(三)矩阵分解:描述了实现细节中的均值归一化。

    1.6K100发布于 2018-01-03
  • 来自专栏数据分析与挖掘

    DyLoRA:使用动态无搜索适应的预训练模型的参数有效微调

    提出的方法:引入了一种动态适应(Dy-LoRA)技术。通过对适配器模块在训练期间的不同所学到的表示进行排序,为一系列的而不是单一的训练LoRA块。 无需搜索的LoRA:我们证明,通过在性能上做出可忽略不计的妥协,有可能避免为LoRA选择最佳的昂贵的搜索过程。 Part2介绍 在每一个LoRA模块中,有一个向上投影和向下投影的矩阵。 为了使LoRA模块在一系列的中工作,而不是单一的,我们需要确保增加或减少不会明显阻碍模型的性能。实现这种行为的一种方法是在LoRA模块的训练过程中对不同的信息内容进行排序。

    2K40编辑于 2023-04-27
  • 来自专栏机器之心

    学界 | 从剪枝法到分解,手机端语言模型的神经网络压缩

    此外还有其他的矩阵分解技术:分解、TT 分解(张量训练分解)。 通过使用 Penn Treebank (PTB)数据集,我们对比了 LSTM 模型在剪枝、量化、分解、张量训练分解之后的模型大小与对快速推断的适应性。 3. 压缩方法统计 3.1 剪枝与量化 ? 图 1:剪枝前后的权重分布 3.2 分解 3.3 TT 分解法(张量训练分解) 4. 结果 ? 表 1:在 PTB 数据集上的剪枝和量化结果 ? 表 2:在 PTB 数据集上的矩阵分解结果 5.

    1.3K90发布于 2018-05-08
  • 来自专栏.NET开发那点事

    AgileConfig 1.8.0 已适配 .NET8

    本月圈子里最大的事莫过于 .NET8 正式 release。群友们都在适配 .NET8。抽个周末我也把 AgileConfig 升级到了 .NET8。 升级 升级 .NET8 修改所有项目的目标框架为 .NET8.0 升级 nuget 包 在 nuget 包管理器里把所有能更新的包全部更新到最新。 这个问题其实跟 .NET8 没有关系,应该是我 3.1 升 6 的时候遗忘了。 把 6 改成 8,其他不用改,超级简单。 通过以上操作,在本地运行没有问题,打包成镜像后在本地 docker desktop 环境下跑也没问题。 只是最新的 .aspnet8 runtime 的镜像对低版本的 docker engine 兼容性有点问题,使用 docker 跑的同学需要注意一下。

    64410编辑于 2023-12-11
  • 来自专栏人工智能与演化计算成长与进阶

    16推荐系统5-6协同过滤算法矩阵分解均值归一化

    参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 16.5 向量化:矩阵分解 Vectorization_ Low Rank Matrix Factorization 示例 当给出一件产品时 矩阵分解 你也可以将电影的特征按照样本的顺序 1,2,3... 按行排列成矩阵 X,将用户的特征按照用户的顺序 1,2,3... 按行排列成矩阵 按照 公式进行计算,也可以得到上述 评分预测矩阵 ,这种方法称为 矩阵分解 ?

    1.1K10发布于 2020-08-14
  • 来自专栏自然语言处理(NLP)论文速递

    碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%

    目前常用的内存减少方法适应(LoRA),通过引入(low-rank)适配器来更新模型的权重,而不是直接更新整个权重矩阵。 \mathbb{R} ^{m\times r} 和 A\in \mathbb{R} ^{r\times n} 是待学习的附加适配器。 它的变体ReLoRA也用于预训练,通过定期使用之前学到的适配器来更新 W_0 。然而对于微调来说,有研究表明LoRA并没有显示出与全微调相当的性能。 GaLore介绍 GaLore的核心思想是在训练过程中利用梯度的特性,而不是直接对权重矩阵进行近似。 不仅如此GaLore还可以与现有技术结合,例如:「与8位优化器的结合」:GaLore可以与8位优化器(如8位Adam)结合使用,这些优化器已经在内存使用上进行了优化。

    1.6K10编辑于 2024-03-11
  • 来自专栏AR增强现实

    代码开发的8个好处

    下面,简单分享8代码开发的优势: 降低进入门槛,成本和部署时间 代码开发降低了应用程序开发进入门槛、成本和部署时间,开发人员不需要用专业的编码器来进行全面开发。 加快开发周期 代码应用程序开发降低了创新技术的进入门槛,没有编码经验的人也可以创建应用程序。除此之外,代码加快了开发周期,开发人员甚至可以在几分钟内创建出功能完善界面美观的产品。 在激烈的市场竞争中,谁可以用最快的速度将商业创意推出上线,谁就占据了竞争的主导地位,而代码恰巧可以完成这一使命。 降低维修负担 代码开发减轻了软件维护的负担。 代码工具帮助公民开发者的崛起,可以用更少的代码和更简单的开发路径完成企业急需的应用程序。 弥合技术鸿沟 代码平台可实现敏捷性开发,同时它还弥合了技术鸿沟,加速了企业的技术创新。

    81610发布于 2020-04-17
  • 来自专栏AIGC 先锋科技

    超越自适应,从LoRA到Neat,利用轻量级神经网络优化预训练模型 !

    微调预训练模型对于将大型模型适配到下游任务中至关重要,通常可以实现最先进的表现。然而,微调所有模型参数资源消耗大且耗时,因此出现了参数高效的微调(PEFT)方法。 一种广泛采用的PEFT技术,自适应(LoRA),将预训练模型权重冻结并引入两个矩阵,其显著小于原始权重矩阵的维度。这使得可以通过调整少量参数实现高效微调。 LoRA的核心概念是引入每个预训练模型权重矩阵,并通过它们的乘积来近似权重更新。由于这些矩阵比原始预训练权重小得多,微调期间的内存开销显著降低。 这种近似往往难以模拟需要高性能的复杂优化轨迹,尤其是在矩阵的较小时。 LoRA(Hu等人,2021)为每个预训练模型权重引入了两个可训练的矩阵,以近似原始模型的所需更新。

    56110编辑于 2024-11-26
  • 来自专栏人工智能

    LoRA+AdaLoRA 混合微调:梯度自适应到底该选哪一档 rank?

    技术原理深度剖析LoRA:冻结原模型的优雅适配LoRA的核心思想是在预训练模型的权重矩阵旁添加一个分解的旁路矩阵。 rank_configs = [ {"name": "统一", "base": 4, "ada": 8, "top": 8}, {"name": "统一中", 配置表现最佳;生成任务中,"混合策略"更优数据量依赖:小样本场景(<1000样本)中,统一(4-8)可防止过拟合计算效率:混合配置相比统一高可减少30-50%训练参数,精度损失<1%收敛速度:AdaLoRA :# 第一阶段:统一快速收敛stage1_config = {"base": 4, "ada": 8, "top": 8}第二阶段:基于重要性评分扩展高重要层 stage2_config = { 上的原始论文实现LoRA-Explorer:可视化选择影响的交互工具结论:没有银弹,只有适配通过详实的实验分析,我们明确了"最佳选择"本质上是一个多目标优化问题,需要在性能、效率和泛化性之间找到平衡点

    17310编辑于 2026-01-14
领券