搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏我爱计算机视觉
MoE-LLaVA——将多模态大模型稀疏化
通常来说，稠密模型的LVLM到此就训练完成，然而我们在发现同时将LLM转为LVLM和把模型稀疏化是具有挑战的。因此，MoE-LLaVA将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。阶段3：作为初始化，我们将FFN复制多份作为专家集合的初始化权重。图4 MoE-LLaVA在9个benchmark上的性能如表1所示，由于MoE-LLaVA是第一个搭载soft router的稀疏模型基于LVLM，因此我们将之前的模型归纳为稠密模型。然而随着模型逐渐被稀疏化，第17到27层的专家的负载突然增大，甚至几乎包揽了所有tokens。对于浅层的5-11层，主要是由专家2，3，4共同协作。这些结果能够更好的帮助我们理解稀疏模型在多模态学习上的行为并探索未知的可能。图8 激活通路可视化
1K10编辑于 2024-02-06
来自专栏翻译scikit-learn Cookbook
Using sparsity to regularize models使用稀疏性来正则化模型
最小化压缩和选择因子LASSO方法很像岭回归和最小角回归LARS。在理解上与岭回归很相似，我们用特定的值来惩罚回归。它与LARS方法相似之处在于它可以被用于分类参数。它经常导致一个有稀疏向量的系数。 = 0) 10 lasso_0 = Lasso(0) lasso_0.fit(reg_data, reg_target) # 警告，未标准化数据 np.sum(lasso_0.coef_ ! 我们希望没有一个系数被调整为0，实际上，如果你使用这个方法，scikit-learn将给你一个警告，来建议你选择线性回归模型。 The equation looks like the following: 对于线性回归，我们最小化平方误差，这里，我们仍然进行最小化平方误差。： image.png An alternate way of looking at this is to minimize the residual sum of squares:可代替的方法是最小化残差平方和
65730发布于 2019-11-14
来自专栏Python机器学习算法说书人
SciPy 稀疏矩阵（4）：LIL（下）
上回说到，LIL 通过把稀疏矩阵看成是有序稀疏向量组，通过对稀疏向量组中的稀疏向量进行压缩存储来达到压缩存储稀疏矩阵的目的。这一回从图数据结构开始！在同质图的分析中，常用的技术和算法包括图论的基本概念，如度、路径、连通性等，以及社区检测、中心性度量、网络扩散模型等。带权图和无权图带权图是一种在数据分析和可视化中常用的工具，它通过对节点和边的权重进行量化表示，帮助我们更好地理解和呈现数据的复杂性和关联性。总之，无权图作为一种特殊的图论模型，以其简洁性和易于分析性在各个领域得到了广泛的应用。随着图论研究的不断深入和应用场景的不断扩展，无权图将在更多领域发挥其重要作用。至此，我们成功的通过图数据结构凑出了 LIL 格式的稀疏矩阵
44410编辑于 2024-05-06
来自专栏Python机器学习算法说书人
SciPy 稀疏矩阵（4）：LIL（上）
至于存储方式也不需要我们去实现，SciPy 已经实现了这样的稀疏矩阵存储方式，它就是另一个板块，这个板块共有 4 种稀疏矩阵格式，分别是{BSR, CSC, CSR, LIL}，这一回先介绍 LIL 格式的稀疏矩阵至于稀疏向量就是多个二元组类的实例构成的一个容器，因此其属性初始化函数的参数就是多个二元组类的实例。实例化 SciPy LIL 格式的稀疏矩阵类的定义位于 scipy.sparse 包中的 lil_matrix 类，对其进行实例化就能获取一个 SciPy LIL 格式的稀疏矩阵的实例。 lil_matrix(S)：S 是一个稀疏矩阵。 lil_matrix((M, N), [dtype])：会实例化一个 M 行 N 列元素类型为 dtype 的全 0 矩阵。案例实例化一个 4 行 5 列元素类型为双精度浮点数的全 0 矩阵： >>> from scipy import sparse >>> import numpy as np >>> np.random.seed
74610编辑于 2024-01-12
来自专栏AIWalker
北大等提出MoE-LLaVA：将多模态大模型稀疏化
通常来说，稠密模型的LVLM到此就训练完成，然而我们在发现同时将LLM转为LVLM和把模型稀疏化是具有挑战的。因此，MoE-LLaVA将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。阶段3：作为初始化，我们将FFN复制多份作为专家集合的初始化权重。图4 MoE-LLaVA在9个benchmark上的性能如表1所示，由于MoE-LLaVA是第一个搭载soft router的稀疏模型基于LVLM，因此我们将之前的模型归纳为稠密模型。然而随着模型逐渐被稀疏化，第17到27层的专家的负载突然增大，甚至几乎包揽了所有tokens。对于浅层的5-11层，主要是由专家2，3，4共同协作。这些结果能够更好的帮助我们理解稀疏模型在多模态学习上的行为并探索未知的可能。图8 激活通路可视化
86010编辑于 2024-02-17
来自专栏大模型应用
大模型应用：不减性能只减负担：大模型稀疏化技术全景与实践.36
稀疏化技术的本质，就是精简团队：在不影响核心能力的前提下，剔除冗余参数、激活关键路径，实现瘦身不缩水。4. 稀疏化与优化的差异很多人会混淆稀疏化与量化、蒸馏等技术，但三者核心逻辑截然不同：量化：降低参数存储精度（如 4bit/8bit），核心是“压缩存储体积”；蒸馏：让小模型学习大模型的输出，核心是“复刻能力经典组合：4bit 量化 + 结构化剪枝，可将 70B 模型的显存占用从 190GB 压缩至 48GB，同时推理速度提升 3 倍以上。2. 稀疏化的流程流程说明：1. 示例：参数稀疏化文本生成模型选择轻量级稠密模型（DistilGPT2），通过结构化剪枝（移除冗余通道）+ 4bit 量化实现参数稀疏，在纯 CPU 环境下完成文本生成，对比稀疏化前后的内存占用与推理速度推理耗时（CPU）：6.8秒模型稀疏率：30%（剪枝）+ 4bit量化 CPU内存占用：约1.2GB（原始模型2.5GB，节省52%）优化说明：结构化剪枝：仅裁剪通道级冗余参数，避免非结构化剪枝导致的
30532编辑于 2026-03-05
来自专栏Deep Learning in Ads
基于Field的DeepFM稀疏化实现
W&D模型的wide部分是广义线性模型，DeepFM的wide部分则是FM模型，两者的deep部分都是深度神经网络。 DeepFM的原始特征是非常稀疏的，所以代码实现需要考虑特征的稀疏化运算； 2. 二、基于Field的DeepFM稀疏化实现 2.2 网络结构图 1522671691_78_w708_h433.png 如图所示，每一种颜色代表不同Field的特征，我们假设输入是稀疏的维度为代码地址：https://github.com/ck8275411/deep_rec 2.2 Field-Avg-Pooling原理 Field-Avg-Pooling最麻烦的地方在于：如何在稀疏化的样本将fm_field_embeddings与样本的SparseTensor进行点积，可以得到每条样本中该Field的sum-pooling; 4. sum-pooling值除以特征个数，即得到了avg-pooling
2.6K80发布于 2018-06-15
来自专栏量子位
不用GPU，稀疏化也能加速你的YOLOv3深度学习模型
最近，创业公司Neural Magic带来了一种名叫新的稀疏化方法，可以帮你解决烦恼，让你的深度学习模型效率“一节更比七节强”！ ? Neural Magic是专门研究深度学习的稀疏方法的公司，这次他们发布了教程：用recipe稀疏化YOLOv3。听起来有点意思啊，让我们来看看是怎么实现的~ 稀疏化的YOLOv3 稀疏化的YOLOv3使用剪枝（prune）和量化（quantize）等算法，可以删除神经网络中的冗余信息。这样就可以建立高度精确的pruned或pruned quantized的YOLOv3模型，从而简化流程。那这种稀疏化方法的灵感来源是什么呢？看来，有了以上强大的YOLOv3 模型工具和教程，用户就可以在CPU上，以最小化的占用空间和GPU的速度来运行深度学习模型。这样有用的教程，你还在等什么？
91820发布于 2021-06-17
来自专栏新智元
单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法
新智元报道编辑：拉燕【新智元导读】大语言模型之大，成本之高，让模型的稀疏化变得至关重要。众所周知，对于大语言模型来说，规模越大，所需的算力越大，自然占用的资源也就越多。研究人员于是乎把目光转到了这片领域，即模型的稀疏化（Sparsification）。今天要介绍的SliceGPT，则可以实现模型的事后稀疏。也就是说，在一个模型训练完了以后再进行稀疏化操作。该模型由微软研究院和苏黎世联邦理工学院联合发表在了arXiv上。目前主流的稀疏化技术面临着挺多挑战和困难。比方说，需要额外的数据结构，而且在当下的硬件条件下，速度有限。结果就是，形成了稀疏模式，意味着在神经网络前向传递所需的矩阵乘法中，可以跳过一些浮点运算。运算速度的相对提升取决于稀疏程度和稀疏模式。下图算式的最小化的线性映射是QD。从这个意义上说，重构L(2)是最佳的。
48710编辑于 2024-02-26
来自专栏图像处理与模式识别研究所
可视化稀疏模式，对称重新排序等三种模型的实现。
1、点击[命令行窗口] 2、按<Enter>键 3、点击[命令行窗口] 4、按<Enter>键 5、点击[命令行窗口] 6、按<Enter>键 7、点击[命令行窗口] 8、按<Enter
26920编辑于 2022-05-28
来自专栏活动
稀疏化训练：DeepSeek万亿参数管理秘籍
核心技术解析稀疏化训练是一种通过引入稀疏性来减少模型参数数量和计算复杂度的技术。其发展经历了多个阶段，从最初的简单剪枝方法到如今的复杂稀疏化策略。然而，随着模型规模的不断扩大和应用场景的日益复杂，稀疏化训练技术也在不断演进，逐渐形成了包括结构化稀疏化、动态稀疏化等多种方法在内的完整体系。通过稀疏化训练，可以将模型中的部分参数设置为零，从而减少计算量和存储需求。例如，使用稀疏化训练技术对ResNet模型进行优化，在不降低分类准确率的前提下，成功地将模型参数减少了30%以上。稀疏化训练过程在稀疏化训练中，需要引入稀疏性约束或正则化项，以促使模型参数向零靠近。模型评估与保存在稀疏化训练完成后，需要对模型进行评估，并保存训练好的模型以便后续使用。
69120编辑于 2025-03-21
来自专栏深度学习思考者
模型部署系列：10x速度提升，Yolov8检测模型稀疏化——CPU上超500FPS
有关 DeepSparse 如何通过稀疏性实现加速的详细指南，请查看 YOLOv5 with Neural Magic’s DeepSparse。 DeepSparse 是一个推理运行时，专注于让 YOLOv8 等深度学习模型在 CPU 上快速运行。DeepSparse 通过推理优化的稀疏模型实现了最佳性能，它还可以有效地运行标准的现成模型。通过我们的 One-Shot 优化方法（将在即将推出的 Sparsify 产品中提供），我们生成了 YOLOv8s 和 YOLOv8n ONNX 模型，这些模型已量化为 INT8，同时保持至少 99% 您可以在此处下载量化模型。 1,3,640,640]" > Throughput (items/sec): 209.9472 > Latency Mean (ms/batch): 4.7631 DeepSparse在 FP32 下的速度快 4
4.8K10编辑于 2023-12-18
来自专栏机器之心
将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B
通常来说，稠密模型的 LVLM 到此就训练完成，然而研究团队发现同时将 LLM 转为 LVLM 和把模型稀疏化是具有挑战的。因此，MoE-LLaVA 将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。阶段 3：MoE-LLaVA 将 FFN 复制多份作为专家集合的初始化权重。实验如图 4 所示，由于 MoE-LLaVA 是第一个基于 LVLM 搭载 soft router 的稀疏模型，因此该研究将之前的模型归纳为稠密模型。然而随着模型逐渐被稀疏化，第 17 到 27 层的专家的负载突然增大，甚至几乎包揽了所有 token。对于浅层的 5-11 层，主要是由专家 2、3、4 共同协作。研究团队发现对于某个未见的 text token 或 image token，MoE-LLaVA 始终偏向于派发专家 2 和 3 来处理模型深层。专家 1、4 倾向于处理初始化的 token。
43310编辑于 2024-02-06
来自专栏PaddlePaddle
一文带你读懂非结构化稀疏模型压缩和推理优化技术
减小模型体积和运算次数，也就是模型稀疏化策略。从效果上看，结构化稀疏在较低稀疏度时，还能使模型获得一定的加速能力，但是在高稀疏度时往往会引入较大的精度损失；非结构化稀疏更能在高稀疏度时，可以达到几倍的推理加速，同时精度损失不大。算法介绍绝大多数模型压缩策略都是应用在一个训练好的模型上，通过 Fine-tune，最终在精度损失很小的情况下，达到压缩目的。非结构化稀疏需要在剪裁后的模型上，进行全量数据集的稀疏化训练过程。 GMP 算法对稀疏化模型的性能提升稀疏化训练包含剪裁模型和 Fine-tune 训练等步骤，但是如何合理的剪裁模型，以保证训练精度呢？非结构化稀疏展望综上，我们已经基本实现了从稀疏化模型训练到推理部署这样一个端到端的能力。
1.8K20编辑于 2021-12-08
来自专栏拓端tecdat
R语言拟合改进的稀疏广义加性模型（RGAM）预测、交叉验证、可视化
这是一种拟合稀疏广义加性模型（GAM）的新方法。RGAM具有计算可扩展性，并且适用于连续、二进制、计数和生存数据（点击文末“阅读原文”获取完整代码数据）。让我们生成一些数据： R set.seed(1) n <- 100; p <- 12 mu = rowSums(x[, 1:3]) + f4 + f5 + f6 我们使用最基本的rgam来拟合模型： R fit <- rgam 下面，我们使用不同的init_nz值拟合模型： RGAM算法第2步的自由度超参数可以通过df选项进行设置，默认值为4。以下是使用不同超参数拟合RGAM模型的示例： R gamma = 0.6, df = 8 函数rgam()为一系列lambda值拟合RGAM模型，并返回一个rgam对象。，并仅给出前4个特征的图表： plot(fit 用户可以使用 index 和 which 选项指定 lambda 值的索引和要显示的特征图： plot(fit, x, in 线性函数以绿色呈现，非线性函数以红色呈现
54810编辑于 2023-11-30
来自专栏拓端tecdat
R语言lasso惩罚稀疏加法（相加）模型SPAM拟合非线性数据和可视化
p=33462 本文将关注R语言中的LASSO（Least Absolute Shrinkage and Selection Operator）惩罚稀疏加法模型（Sparse Additive Model 相关视频通过本文，我们将展示如何帮助客户在R语言中使用LASSO惩罚稀疏加法模型（SPAM）来拟合非线性数据，并进行相应的可视化分析。本文提供了一个代码来设置、拟合和可视化加法模型。这个基本思想最早是由Ravikumar等人在2009年提出的，他们称之为SPAM，即稀疏加法模型。最初的提议涉及到组套索lasso惩罚，但grpreg的任何惩罚函数都可以代替。基本用法如下所示。下面是前 9 个系数的曲线图： for (i in 1:9) ploline(fit 在生成模型中，变量 3 和 4 与结果呈线性关系，变量 1、2、5 和 6 呈非线性关系，而所有其他变量均不相关稀疏加法模型很好地捕捉到了这一点。
43020编辑于 2023-08-31
来自专栏拓端tecdat
R语言lasso惩罚稀疏加法（相加）模型SPAM拟合非线性数据和可视化
p=33462原文出处：拓端数据部落公众号本文将关注R语言中的LASSO（Least Absolute Shrinkage and Selection Operator）惩罚稀疏加法模型（Sparse 通过本文，我们将展示如何帮助客户在R语言中使用LASSO惩罚稀疏加法模型（SPAM）来拟合非线性数据，并进行相应的可视化分析。本文提供了一个代码来设置、拟合和可视化加法模型。下面是前 9 个系数的曲线图：for (i in 1:9) ploline(fit在生成模型中，变量 3 和 4 与结果呈线性关系，变量 1、2、5 和 6 呈非线性关系，而所有其他变量均不相关。稀疏加法模型很好地捕捉到了这一点。进行交叉验证（默认情况下会绘制出使交叉验证误差最小的拟合结果）：cvfit <- cv.grpplot_line最后，这些工具还可用于生存模型和 glm 模型。 ----最受欢迎的见解1.数据类岗位需求的数据面2.探析大数据期刊文章研究热点3.机器学习助推快时尚精准销售预测4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用5.数据聆听人民网留言板的那些
42510编辑于 2023-08-21
来自专栏LINUX阅码场
郭健： Linux内存模型——平坦、非连续与稀疏
在linux操作系统中，物理内存是按照page size来管理的，具体page size是多少是和硬件以及linux系统配置相关的，4k是最经典的设定。在ARM系统中，假设物理地址是32个bit，那么其物理地址空间就是4G，在ARM64系统中，如果支持的物理地址bit数目是48个，那么其物理地址空间就是256T。不过，现在由于内存越来越大，对于32位系统，4G的物理地址空间已经无法满足内存的需求，因此会有high memory这个概念，后续会详细描述。顺便一提的是，在开始的时候，sparse memory使用了一维的memory_section数组（不是指针数组），这样的实现对于特别稀疏（CONFIG_SPARSEMEM_EXTREME）的系统非常浪费内存，一个section的struct page数组所占用的内存来自directly mapped区域，页表在初始化的时候就建立好了，分配了page frame也就是分配了虚拟地址。
4.7K32发布于 2019-10-08
来自专栏PaddlePaddle
大规模稀疏数据分布式模型训练+Anakin Optimizaiton
大规模稀疏数据分布式模型训练视频↓ 大规模稀疏数据分布式模型训练课件↓ Anakin Optimizaiton公开课视频↓ Anakin Optimizaiton公开课课件↓
85820发布于 2018-07-26
深度学习前沿：稀疏专家模型（MoE）门控机制的探索
稀疏专家模型（MoE）概述在深度学习领域，稀疏专家模型（Mixture of Experts, MoE）正成为处理超大规模模型的重要范式。门控机制的设计也影响着模型的泛化能力。研究表明，过于稀疏的专家激活（极小的 kk 值）会导致模型难以学习复杂模式；而过于密集的激活（ kk 接近专家总数）又会丧失MoE的计算效率优势。负载均衡的数学建模在稀疏专家模型（MoE）的架构中，负载均衡问题直接决定了模型的计算效率和资源利用率。噪声路由的数学建模噪声路由的核心作用机制在稀疏专家模型（MoE）的架构中，噪声路由（Noisy Routing）是一种巧妙的正则化手段，其本质是通过在门控网络（Gating Network）的输出中引入可控的随机扰动工程化落地的四大瓶颈硬件适配性问题随着MoE规模扩大日益凸显。当专家数量突破 10410^4 量级时，现有GPU显存带宽已成为路由决策的瓶颈。
1.5K10编辑于 2025-08-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

MoE-LLaVA——将多模态大模型稀疏化

Using sparsity to regularize models使用稀疏性来正则化模型

SciPy 稀疏矩阵（4）：LIL（下）

SciPy 稀疏矩阵（4）：LIL（上）

北大等提出MoE-LLaVA：将多模态大模型稀疏化

大模型应用：不减性能只减负担：大模型稀疏化技术全景与实践.36

基于Field的DeepFM稀疏化实现

不用GPU，稀疏化也能加速你的YOLOv3深度学习模型

单GPU就能压缩模型，性能不变参数少25%！微软提出模型稀疏化新方法

可视化稀疏模式，对称重新排序等三种模型的实现。

稀疏化训练：DeepSeek万亿参数管理秘籍

模型部署系列：10x速度提升，Yolov8检测模型稀疏化——CPU上超500FPS

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

一文带你读懂非结构化稀疏模型压缩和推理优化技术

R语言拟合改进的稀疏广义加性模型（RGAM）预测、交叉验证、可视化

R语言lasso惩罚稀疏加法（相加）模型SPAM拟合非线性数据和可视化

R语言lasso惩罚稀疏加法（相加）模型SPAM拟合非线性数据和可视化

郭健： Linux内存模型——平坦、非连续与稀疏

大规模稀疏数据分布式模型训练+Anakin Optimizaiton

深度学习前沿：稀疏专家模型（MoE）门控机制的探索

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐