首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Python机器学习算法说书人

    SciPy 稀疏矩阵(6):CSC

    np.array([0, 2, 2, 0, 1, 2]) >>> col = np.array([0, 0, 1, 2, 2, 2]) >>> data = np.array([1, 2, 3, 4, 5, 6] ], dtype=int32) 通过第 5 种实例化方法实例化一个稀疏矩阵: >>> indptr = np.array([0, 2, 3, 6]) >>> indices = np.array([0, 2, 2, 0, 1, 2]) >>> data = np.array([1, 2, 3, 4, 5, 6]) >>> csc_matrix((data, indices, indptr), shape =(3, 3)).toarray() array([[1, 0, 4], [0, 0, 5], [2, 3, 6]]) 依旧是通过元素值序列、行索引序列以及列索引序列来实例化一个 = [1, 1, 1, 1, 1, 1] >>> indptr = [0, 3, 6] >>> csc_matrix((data, indices, indptr), dtype=int).toarray

    98610编辑于 2024-06-25
  • 来自专栏具身小站

    4SCARA与6协作机器人:工程对比

    运动学对比 根据机械臂的 D-H 参数建立相邻连杆空间位姿模型,两种臂型方案中机械臂末端执行器的 D-H 空间坐标系模型如图 SCARA 机械臂只有四个自由度,包括大臂、小臂的回转运动、末端执行器绕 Z 旋转和沿 Z 上下运动D-H 连杆参数如下 六关节机械臂拥有完整的六个自由度,且相比 SCARA 机械臂运动位姿更加灵活,六关节机械臂的手 - 臂 D-H 连杆参数如下 04 空间可达区域对比 使用蒙特卡洛法对两种备选臂型方案的手

    25310编辑于 2026-03-04
  • 深度学习前沿:稀疏专家模型(MoE)门控机制的探索

    稀疏专家模型(MoE)概述 在深度学习领域,稀疏专家模型(Mixture of Experts, MoE)正成为处理超大规模模型的重要范式。 与传统稠密模型不同,MoE在每次前向传播时仅激活部分专家(通常为1-2个),这种稀疏激活特性使其参数量可以指数级增长而不显著增加计算成本。 2021年Google推出的Switch Transformer将专家数量扩展到数千个,验证了超大规模稀疏模型的可行性。 负载均衡的数学建模 在稀疏专家模型(MoE)的架构中,负载均衡问题直接决定了模型的计算效率和资源利用率。 未来展望与挑战 技术演进的三重突破方向 当前稀疏专家模型(MoE)的门控机制正面临从"可用"到"好用"的关键跃迁阶段。

    1.7K10编辑于 2025-08-27
  • 来自专栏智能生信

    稀疏混合专家融合是领域泛化的学习者

    在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。 为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。

    51420编辑于 2022-12-29
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    频率挑战 为了解决上述问题,作者提出了全新的时间序列统一训练解决方案Moirai-MoE,其核心思想是利用单个输入/输出投影层,同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 但其主要改进在于:Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入/输出投影层,同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 到最后一层(第6层),专家分配在所有频率上变得几乎相同,表明模型已将时间序列抽象为与频率基本无关的高级表示。这一证据表明 Moirai-MoE学习到了频率不变的隐层表示,这对于模型泛化至关重要。

    75400编辑于 2024-11-19
  • 来自专栏月色的自留地

    从锅炉工到AI专家(6)

    这个滚动过程会有移动的步长设置,对于一些重点稀疏的图像,我们可能会增加步长来减少数据及提高效率。 因为上面这两个原因,卷积最终所得图像的输出尺寸,是可能小于原图像长宽尺寸的。

    68380发布于 2018-06-20
  • 来自专栏机器之心

    可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型

    稀疏混合专家模型(MoE)是一种很有前途的替代方案,可以在计算成本较少的情况下,扩展模型的大小。 稀疏 MoE Transformer 有一个关键的离散优化问题:决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。 论文地址:https://arxiv.org/pdf/2308.00951.pdf Soft MoE 不采用稀疏且离散的路由器在 token 和专家之间进行硬分配(hard assignment),而是通过混合 作为对比,稀疏 MoE 方法通常采用的是硬分类。 其次 Soft MoE 没有 token dropping 和专家不平衡。 因此,Soft MoE 的速度明显要快于大多数稀疏 MoE,具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。

    35410编辑于 2023-09-08
  • 来自专栏大模型系列

    解密 DeepSeek V4:双稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    其采用先进的双稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术,构建了一个高效、普惠、安全的大模型生态系统。 在推理过程中,通过一个“门控网络”(GatingNetwork)动态选择最合适的专家组合,实现稀疏激活。 2.2双稀疏架构(Two-AxisSparsity)DeepSeekV4最核心的创新之一是“双稀疏架构”,即在两个维度上同时实现稀疏化:2.2.1专家维度稀疏(ExpertSparsity)专家维度稀疏是 通过双稀疏架构,DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比,实现了长文本处理的革命性突破。 其创新的MoE架构、双稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
  • 来自专栏全栈程序员必看

    最新慧联A6陀螺仪(阿u)

    解决挂测过程中ssl死机问题 3:vbat电压发生变化时,rtos.MSG_PMD消息不会上报 4:支持DES3加密,解密接口 5:spi dma模式挂测外部flash,概率读写失败导致lua卡主问题 6: 参数设置接口sock_setopt,lua通过设置opt实现保活功能 3:添加AT+TCPUSERPARAM 4:新接口接口lua otp接口 5:支持关机充电功能 ,lua项目打开充电开机功能 6: ,0/1 0019底层固件更新说明 1:升级到19 2:支持应用层更新audio校准参数 3:开发通用工厂测试 4:同时建大于3路ssl tcp时会死机 5:升级到W20.30.1 6: rtmp demo (3)aLiYun:公共实例和企业版示例的MQTT直连方式demo (4)call:新增mic增益设置功能演示 (5)call:新增mic增益设置和mic通道选择功能演示 (6) aLiYun.lua:支持连接状态下的主题订阅功能 4:audio.lua:play接口支持一次传入多文件连续拼接播放功能 5:nvm.lua:init接口支持“本地烧录软件时是否擦除nvm中已有的参数”功能 6

    1.1K10编辑于 2022-07-29
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双稀疏架构重塑大模型未来?

    DeepSeek-V4的“双稀疏架构”正是对这一时代命题的响亮回答。 第二章:核心理念——从“单”到“双”的范式跃迁在DeepSeek-V4之前,主流的稀疏化技术是混合专家(MixtureofExperts,MoE)。 MoE通过为每个输入Token动态选择激活少量“专家”子网络,实现了条件计算(ConditionalComputation),即只在需要时才进行计算。这是一种单稀疏,其稀疏性仅体现在“计算”维度上。 这构成了其双稀疏架构的核心:第一:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 这场由“双稀疏”引发的架构革命,正在深刻地重塑大模型的未来格局。

    43220编辑于 2026-04-24
  • 来自专栏物联网思考

    ST六传感器LSM6DSO使用记录

    1、前言 LSM6DSO是ST公司的六传感器,集成三加速度和三陀螺仪。 6.6、陀螺仪数据传感器 总共6个寄存器,分x、y、z三的高位和低位,这里要注意,输出的是有符号数据。 6.7、加速度数据传感器 总共6个寄存器,分x、y、z三的高位和低位,这里要注意,输出的是有符号数据。 = LSM6DSOReadReg(LSM6DSO_ADDRESS,LSM6DSO_OUTY_L_G)|(LSM6DSOReadReg(LSM6DSO_ADDRESS,LSM6DSO_OUTY_H_G) =LSM6DSOReadReg(LSM6DSO_ADDRESS,LSM6DSO_OUTY_L_A)|(LSM6DSOReadReg(LSM6DSO_ADDRESS,LSM6DSO_OUTY_H_A)<<

    2.9K40编辑于 2021-12-21
  • 来自专栏用户7230014的专栏

    如何推进IPv6技术创新?| 专家解读

    IPv6是网络技术创新的重要方向 IPv6是互联网底层IP协议,是网络技术生态的一次全面升级,深刻影响着信息技术、产业、应用的创新和变革。 IPv6以及基于IPv6的衍生和融合技术还为解决网络安全问题提供了新平台,为提高网络安全管理效率和创新网络安全技术提供了新思路。 事实上,我国作为世界上较早开展IPv6下一代互联网试验和应用的国家,在IPv6基础技术研发及掌握方面拥有先发优势。 IPv6涉及到的BGP路由、DNS根服务器、终端等及芯片和操作系统等我国都已有深入研究和布局。同时,基于IPv6的SRv6等衍生技术也不断涌现。 自1996年国际互联网工程任务组(IETF)制订IPv6第一批标准以来,IPv6相关RFC(一系列以编号排定的文件)已累计近千篇,且这个数字还在不断增加中。

    58230发布于 2021-08-23
  • 来自专栏机器之心

    30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述

    机器之心报道 机器之心编辑部 30年时间,稀疏专家模型已逐渐成为一种很有前途的解决方案。 稀疏专家模型是一个已有 30 年历史的概念,至今依然被广泛使用,是深度学习中的流行架构。 近日,谷歌 AI 负责人 Jeff Dean 等人撰写了一篇稀疏专家模型的综述,回顾了稀疏专家模型的概念,提供了通用算法的基本描述,最后展望了未来的研究方向。 稀疏专家模型已成为一种很有前途的解决方案。 稀疏专家模型(其中,混合专家系统(MoE)是最流行的变体)是一种特殊的神经网络,其中一组参数被划分为 “专家”,每个“专家” 具有唯一的权重。 ., 2021),进一步复杂化了对稀疏专家模型的理解。 上游扩展 稀疏专家模型在大型数据集上训练时表现出色。 稀疏专家模型的迅速发展 稀疏专家模型的影响正在迅速蔓延到NLP以外的其他领域,包括计算机视觉、语音识别和多模态应用。

    72530编辑于 2022-10-08
  • 来自专栏机器之心

    手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

    选自huggingface 机器之心编译 机器之心编辑部 本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 内容简介 在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专家语言模型中,大部分组件都与传统的 transformers 相同。 不过,每个区块的结构发生了巨大的变化:标准的前馈神经网络被多个稀疏激活的前馈网络(即专家网络)所取代。所谓「稀疏激活」,是指序列中的每个 token 只被分配给有限数量的专家(通常是一个或两个)。 这个过程的关键和难点是避免不必要的乘法运算,只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的,因为这个过程将不再是稀疏的。 索引确定了被激活的专家是哪些, 对应的值又决定了权重大小。下图进一步解释了加权求和的概念。 模块整合 将多头自注意力和稀疏混合专家相结合,形成稀疏混合专家 transformer 块。

    2.8K11编辑于 2024-02-26
  • 来自专栏具身小站

    6机械臂避撞固定障碍物的关节逆结算

    避障路径规划是指在给定的障碍条件以及起始和目标的位姿,选择一条从起始点到达目标点的路径,使运动物体能安全、无碰撞地通过所有的障碍,经典方法包括自由空间法和人工势场法。

    16510编辑于 2026-01-20
  • 来自专栏机器之心

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    例如,英伟达 A100 GPU 的稀疏张量核心支持 2:4 稀疏度以加快推理速度。 图 6. 2:4 结构化稀疏矩阵及其压缩表示。 (1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能,以保持参数的数量或满足特殊限制,如 N:M 稀疏性。只要两个矩阵对应的按相同的顺序排列,矩阵乘法的结果就不会改变。 Q( 1)和 K^⊤( 0)上相同排列,自注意力模块的结果不变。 W_1( 1)和 W_2( 0)上有着相同的排列,可以保持 FFN 层的输出不变。为简单起见,图示省略了偏差项,但也应对它们应用相同的排列。 6.

    2.5K30编辑于 2023-03-29
  • 来自专栏SEO优化知识

    SEO专家,必备的6个职业技能,你有吗?

    每一个SEO人员,从入门到专家都是一个成长的过程,无论你的前期背景是什么,比如: ①网站程序开发者 ②初创企业的管理者 ③在线网络营销人员 当我们成为一名SEO专家的时候,我们可能都无法脱离如下技能,比如 6、PPT的展示 对于SEO经理,相信每个人都会深有体会,SEO这个部门或者工作,实际上在公司内部,并不被高度重视,特别是你在申请预算的时候,经常被BOSS质问,SEO不是免费的吗? 当然,作为一名SEO专家,我们仍然有很多细节需要注意,也会遇到各种奇葩问题与上司,欢迎大家积极讨论!

    56400发布于 2020-01-24
  • 来自专栏云深之无迹

    ST新品LSM6DSV80X-6IMU,高达80G值加速度计

    这可太有实力了,真的 它采用 0.86 毫米厚的 LGA 封装,称为 LSM6DSV80X,具有低范围高达 16g 的加速度计和高范围高达 80g 的加速度计,另外还有三个工作速度高达 4000 度/秒的陀螺仪 一个 三低 g 加速度计(±2/4/8/16 g) 一个 三高 g 加速度计(±32~320 g) 一个 三陀螺仪(±250/500/1000/2000/4000 dps) 就是加了两个量程的加速度计 下图是生成的折线图,显示了沿 x (红线)、y (绿线)和 z (浅蓝线)的加速度: 在图所示的折线图中 , 可以识别出与球与用户手接触的动作相对应的峰值。 可以看到撞击如何导致略低于 80 g 的加速度,而 LSM6DSV80X 可以检测到该加速度。 高速信号链 这些是我自己设计的产品上面的算法,就是一个加速度计,有了传感器,算法就更好了。 在九“组合高性能”模式下,功耗为0.80mA,如果仅启用六,则降至0.67mA。模拟电源电压为1.71至3.6V,其IO电压为1.08至3.6V——数据可通过I²C 、 SPI或I²C总线传输。

    35310编辑于 2025-07-27
  • 来自专栏数据派THU

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    还记得谷歌大脑团队去年 6 月份发布的 43 页论文《Scaling Vision with Sparse Mixture of Experts》吗? 稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而,在计算机视觉中,几乎所有的高性能网络都是密集的,也就是说,每个输入都会转化为参数进行处理。 去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。 FFN 的稀疏混合(称之为专家)。 x 对应 32 个专家中的每一个,y 显示图像类别的 ID(从 1 到 1000)。图中每个条目都显示了为与特定图像类对应的 token 选择专家的频率,颜色越深表示频率越高。

    51720编辑于 2022-03-04
  • 来自专栏机器之心

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而,在计算机视觉中,几乎所有的高性能网络都是密集的,也就是说,每个输入都会转化为参数进行处理。 去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。 FFN 的稀疏混合(称之为专家)。 x 对应 32 个专家中的每一个,y 显示图像类别的 ID(从 1 到 1000)。图中每个条目都显示了为与特定图像类对应的 token 选择专家的频率,颜色越深表示频率越高。 异构专家架构和条件可变长度路由也是有潜力的研究方向。稀疏模型尤其有益于数据丰富的领域,例如大规模视频建模。他们希望开源的代码和模型能够吸引更多研究人员关注该领域。

    40220编辑于 2022-02-23
领券