首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Python机器学习算法说书人

    SciPy 稀疏矩阵(3):DOK

    当然,构造实例的方法主要有 3 种: dok_matrix(D):D 是一个普通矩阵(二维数组)。 dok_matrix(S):S 是一个稀疏矩阵。 索引操作和切片操作: >>> mtx[1, 1] 0.0 >>> mtx[1, 1:3] <1x2 sparse matrix of type '<class 'numpy.float64'>' with 1 stored elements in Dictionary Of Keys format> >>> mtx[1, 1:3].todense() matrix([[0., 1.]]) >>> mtx[[2, 1], 1:3].todense() matrix([[1., 0.], [0., 1.]]) 下回预告 不管是 COO 格式的稀疏矩阵还是 DOK 格式的稀疏矩阵,它们都无一例外地对三元组进行了存储。因此,COO 格式的稀疏矩阵和 DOK 格式的稀疏矩阵可以放在一个板块中。

    1K50编辑于 2023-09-12
  • 深度学习前沿:稀疏专家模型(MoE)门控机制的探索

    稀疏专家模型(MoE)概述 在深度学习领域,稀疏专家模型(Mixture of Experts, MoE)正成为处理超大规模模型的重要范式。 2021年Google推出的Switch Transformer将专家数量扩展到数千个,验证了超大规模稀疏模型的可行性。 负载均衡的数学建模 在稀疏专家模型(MoE)的架构中,负载均衡问题直接决定了模型的计算效率和资源利用率。 实际测试数据显示,在未加约束的MoE模型中,负载方差可达平均值的3-5倍。 基于软约束的平衡算法 当前主流解决方案采用可微惩罚项来调节门控权重。 在2025年最新发布的v3版本中,团队引入了动态负载感知器(DLA),其核心算法可以表示为: Lbalance=λ⋅CV(load1,...

    1.7K10编辑于 2025-08-27
  • 来自专栏python3

    八、IO优化(3稀疏

      稀疏列是对 Null 值采用优化的存储方式的普通列。    稀疏列减少了 Null 值的空间需求,但代价是检索非 Null 值的开销增加。 当至少能够节省 20% 到 40% 的空间时,才应考虑使用稀疏列。 三、稀疏列的使用场景 1. 列集   使用稀疏列的表可以指定一个列集以返回表中的所有稀疏列。列集是一种非类型化的 XML 表示形式,它将表的所有稀疏列组合成为一种结构化的输出。 稀疏列和列集是通过使用 CREATE TABLE 或 ALTER TABLE 语句定义的。INSERT、UPDATE 和 DELETE 语句可以通过名称来引用稀疏列。 筛选索引   对于仅包含少量非 NULL 值的稀疏列,因为稀疏列有许多 Null 值行,所以尤其适用于筛选索引。稀疏列的筛选索引可以仅仅对已填充值的行编制索引。这会创建一个更小、更有效的索引。

    68210发布于 2020-01-08
  • 来自专栏智能生信

    稀疏混合专家融合是领域泛化的学习者

    在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。 为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。

    51420编辑于 2022-12-29
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    频率挑战 为了解决上述问题,作者提出了全新的时间序列统一训练解决方案Moirai-MoE,其核心思想是利用单个输入/输出投影层,同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 但其主要改进在于:Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入/输出投影层,同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 3. 训练目标 为了同时支持点预测和概率预测两种预测模式,Moirai-MoE的训练目标设定为优化未来混合分布的对数似然函数。

    75400编辑于 2024-11-19
  • 来自专栏全栈程序员必看

    translate3d绕旋转

    solid brown; margin-top: 50px; margin-left: 50px; transition: all 1s; } .cbox1:hover { transform: rotate3d solid brown; margin-top: 50px; margin-left: 50px; transition: all 1s; } .Cbox1:hover { transform: rotate3d (1, 1, 0, 55deg); /****x,y,z,旋转角度***/ } </style> </head> <body>

    沿着x旋转:两个都是绕x旋转55度第一个不加(perspective /imags/ggg.jpg">

    沿着Y旋转:两个都是绕Y旋转55度第一个不加(perspective)透视--------------------------沿着Z 旋转:两个都是绕Z旋转55度第一个不加(perspective)透视

    <img src="../..

    91740编辑于 2022-11-15
  • 来自专栏机器之心

    可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型

    稀疏混合专家模型(MoE)是一种很有前途的替代方案,可以在计算成本较少的情况下,扩展模型的大小。 稀疏 MoE Transformer 有一个关键的离散优化问题:决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。 作为对比,稀疏 MoE 方法通常采用的是硬分类。 其次 Soft MoE 没有 token dropping 和专家不平衡。 因此,Soft MoE 的速度明显要快于大多数稀疏 MoE,具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。 下图 3a 和 3b 显示了每个类别中模型的结果,这些模型位于各自的训练成本 / 性能帕累托边界上。

    35410编辑于 2023-09-08
  • 来自专栏大模型系列

    解密 DeepSeek V4:双稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    其采用先进的双稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术,构建了一个高效、普惠、安全的大模型生态系统。 2.2双稀疏架构(Two-AxisSparsity)DeepSeekV4最核心的创新之一是“双稀疏架构”,即在两个维度上同时实现稀疏化:2.2.1专家维度稀疏(ExpertSparsity)专家维度稀疏是 通过双稀疏架构,DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比,实现了长文本处理的革命性突破。 4.3.3能耗表现在昇腾芯片上,DeepSeekV4的能耗比V3降低了40%,这主要得益于:稀疏激活机制:减少了不必要的计算;内存优化:降低了数据传输开销;硬件适配:充分利用昇腾芯片的专用指令集。 其创新的MoE架构、双稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
  • 来自专栏前端一会

    D3比例尺与坐标

    以下为含有坐标的柱状图代码示例: import * as d3 from "d3"; // 柱状图数据 let dataset = [ 20, 43, 120, 87, 99, 167, 142 ] X的线性比例尺 let xScale = d3.scaleBand() .domain( d3.range(dataset.length) ) = d3.axisBottom( xScale ); // 为坐标定义一个y的线性比例尺 let yScale = d3.scaleLinear() .domain .nice() // 使用给定的 yScale 构建一个刻度在左的y坐标 let yAxis = d3.axisLeft( yScale ) // 在svg画布中特定位置放置 let yAxis = d3.axisLeft( yScale ); // svg中插入由g元素包裹的x坐标 gs.append( "g" ) .attr( "transform", "translate

    3.6K10发布于 2020-05-18
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双稀疏架构重塑大模型未来?

    DeepSeek-V4的“双稀疏架构”正是对这一时代命题的响亮回答。 第二章:核心理念——从“单”到“双”的范式跃迁在DeepSeek-V4之前,主流的稀疏化技术是混合专家(MixtureofExperts,MoE)。 MoE通过为每个输入Token动态选择激活少量“专家”子网络,实现了条件计算(ConditionalComputation),即只在需要时才进行计算。这是一种单稀疏,其稀疏性仅体现在“计算”维度上。 这构成了其双稀疏架构的核心:第一:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 这场由“双稀疏”引发的架构革命,正在深刻地重塑大模型的未来格局。

    43220编辑于 2026-04-24
  • 来自专栏月色的自留地

    从锅炉工到AI专家(3)

    * b = 28 #---------------------------------------------------- # 矩阵常量运算的例子 matrix1 = tf.constant([[3. , 3.]]) matrix2 = tf.constant([[2.],[2.]]) product = tf.matmul(matrix1, matrix2) with tf.Session() as 本节的最后再说一下python2和python3,tensorflow对两个版本都能很好支持,python还可以支持c/c++/go等多种高级语言,但因为外围工具的原因,目前仍然是对python的支持最好 对python版本的偏爱纯属个人偏好,有的人喜欢python2,有的人则是python3的拥趸。 主要写独立性应用系统的,可以使用python3,其中一些特征很多人认为有利于企业型的应用系统编写,并且反正部署也是独立运行的,不用考虑兼容性。 (待续...)

    80990发布于 2018-06-20
  • 来自专栏Hello工控

    AXIS_REF_SM3控的核心接口!

    :AXIS_REF_SM3. 关于这里,我们在5年前早就已经详细的介绍过了,有兴趣可以直接点击下方图片进入链接: 上述基本把我们常用到的功能块,特别是控接口AXIS_REF_SM3详细的视频介绍过。 AXIS_REF_SM3 从CODESYS的help系统介绍看: AXIS_REF_SM3就是典型的FB结构,属于函数功能块。 关于上述具体接口的含义及常用的,我们在视频里面也有详细的介绍: Pointer to AXIS_REF_SM3 Pointer作为类型接口的指针,如何去使用的呢? 一般我们为了方便对轴进行切换,可以用这种方式很方便的切换实际的物理和虚拟,而不需要更换配置,只需要改变下程序的逻辑,就实现了: 这里面g_pAxis就是指针: 这种方式非常适合加快调试,没有实际设备的时候

    62200编辑于 2025-12-23
  • 来自专栏云云众生s

    使用 BGE-M3 生成学习型稀疏嵌入

    BGE-M3 是一种用于创建学习型稀疏嵌入的 ML 模型,它将精度和语义丰富度相结合,用于高级自然语言处理。 他们可以使用传统的稀疏嵌入或密集嵌入。稀疏嵌入非常适合关键字匹配过程。我们通常在自然语言处理 (NLP) 中找到稀疏嵌入,这些高维嵌入通常包含零值。这些嵌入中的维度表示一种(或多种)语言中的标记。 BGE-M3 是一种机器学习模型,用于创建一种称为“学习型稀疏嵌入”的先进嵌入类型。这些学习型嵌入的优点是它们结合了稀疏嵌入的精确性和密集嵌入的语义丰富性。 BGE-M3 进入聊天 BERT 为我们提供了密集嵌入,但这里的目标是生成学习的稀疏嵌入。所以现在我们终于可以接触到 BGE-M3 模型了。 所有这些都是说,它不仅仅是通过生成学习的稀疏嵌入来创建密集嵌入,这些嵌入提供了两全其美的优势:词义和精确的词语选择。 BGE-M3 的实际应用 让我们从与理解 BERT 相同的查询开始。

    1.6K10编辑于 2024-07-01
  • 来自专栏机器之心

    30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述

    著名的里程碑语言模型包括 GPT-2(Radford et al., 2018)、BERT(Devlin et al., 2018)、T5(Raffel et al., 2019)、GPT-3(Brown 稀疏专家模型已成为一种很有前途的解决方案。 稀疏专家模型(其中,混合专家系统(MoE)是最流行的变体)是一种特殊的神经网络,其中一组参数被划分为 “专家”,每个“专家” 具有唯一的权重。 ., 2021),进一步复杂化了对稀疏专家模型的理解。 上游扩展 稀疏专家模型在大型数据集上训练时表现出色。 扩展专家层的数量、大小和频率 有几个重要的超参数控制着稀疏专家模型的扩展,包括:1)专家数量,2)每个专家的大小,以及 3专家层的频率。这些决策可能对上游和下游扩展产生重大影响。 Du et al. (2021) 训练了一个纯 MoE 解码器语言模型,取得了小样本上的 SOTA 结果,并且只需要训练 GPT-3 所需的 1/3 计算量。

    72530编辑于 2022-10-08
  • 来自专栏机器之心

    手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

    选自huggingface 机器之心编译 机器之心编辑部 本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k [3, 2], [3, 0]]])) 通过仅保留沿最后一个维度进行比较的前 k 大的值,来获得稀疏门控的输出。 ], [[3, 5], [7, 3], [3, 6], [1, 0]]])) 创建稀疏化的混合专家模块 在获得门控网络的输出结果之后 这个过程的关键和难点是避免不必要的乘法运算,只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的,因为这个过程将不再是稀疏的。 索引确定了被激活的专家是哪些, 对应的值又决定了权重大小。下图进一步解释了加权求和的概念。 模块整合 将多头自注意力和稀疏混合专家相结合,形成稀疏混合专家 transformer 块。

    2.8K11编辑于 2024-02-26
  • 来自专栏腾讯专有云

    运维专题第3期:诊断专家

    当报警指标多了,一般人就难以综合分析了;这个时候就该用巡检平台来实现了,我们会把巡检平台类比医院的专家号,通过专家分析病人的各种指标数据,给出综合分析和医疗方案,这种能力需要积累多年行业经验和或者综合多项指标才能给出 输出不同 监控基本能力是过程数据记录+报警,输出的是指标明细+告警;巡检能力是综合分析+巡检结果,输出的是巡检报告,巡检报告包含了问题资源列表和各种修复建议等专家知识库内容。 假如你的故障需要分钟级或者秒级通知运维人员,就需要作为监控项放在监控平台;而巡检平台适合相对低频执行和专家经验,决定了巡检平台更适合低SLA要求场景,比如容量规划问题、产品健康度分析、安全隐患分析、全局架构优化等非常适合巡检平台来实现 差异化特性四:海量巡检项 目前巡检平台最新版本内置400+项,未来将增加到1000+,其中包含了大量运维专家和产品专家的优化建议,海量的知识库还在积累中,敬请期待新版本! 什么是好的运维产品?

    1.1K10编辑于 2022-06-24
  • 来自专栏点云PCL

    用于相机重定位的3D点线稀疏地图

    在这种基于注意力的更新之后,点和线特征被分为两个独立的多层感知器(MLP)来回归它们各自的3D坐标。 图1:由PL2Map表示的3D点线地图,文章展示了提出的学习方法用于表示3D点线特征的结果示例,左侧输入图像的红色相机位姿在预测线(a)和点(b)地图中是真实姿态,而蓝色相机姿态是使用预测线或点地图估计的姿态 室内重新建图和定位 在室内重新建图和定位方面,使用了学习到的室内稀疏点和线地图表示的定位结果,并与Hloc、PtLine和Limap等基线方法进行了比较。 相较于其他主要基线方法,我们的方法不需要匹配步骤,并且将3D地图存储为描述子,因此需要更少的内存。 总结 本文提出的PL2Map流程,旨在将稀疏3D点和线统一封装在一个模型中。 经过针对特定场景的训练,我们的流程能够高效地生成点和线特征的2D-3D对应关系。

    52710编辑于 2024-03-26
  • 来自专栏机器学习/数据可视化

    D3.js库-7-坐标的使用

    D3.js库-7-添加坐标 坐标 坐标是可视化图表中经常出现的一种图形,由一些刻度和线列段组成。D3中是没有现成的坐标,SVG中因而没有现成的图形元素,需要通过D3提供的其他组件来手动添加。 下图是添加了坐标之后的效果图。 ? ? D3中提供了一个组件能够自动添加:d3.svg.axis() 每个分组g看做是一个刻度值和线段组成的group。 定义一个坐标 定义一个坐标需要使用上一篇文章中使用的比例尺。 domain([0, d3.max(dataset)]) // 映射区间 .range([0,250]); const axis = d3.axisBottom(scaleLinear) .range([0, 300]); // 定义一个坐标 var xAxis = d3.axisBottom(xScale

    3.7K10发布于 2021-03-01
  • 来自专栏蚂蚁开源社区

    超炫酷CSS3垂直时间特效开源库

    简要介绍 这是一款超炫酷CSS3垂直时间特效。该特效通过HTML DOM元素和CSS transform来制作非常炫酷的时间布局效果。 ? (电脑端) ? stylesheet" href="http://jrain.oscitas.netdna-cdn.com/tutorial/css/fontawesome-all.min.css"> HTML结构 该垂直时间的 ">

    <h3 timeline-year">2015
CSS样式 然后通过下面的CSS样式来制作垂直时间效果 .timeline-content{ border-color: #ADEEC3; } .main-timeline .timeline:nth-child(4n+3) .timeline-year{

1.3K30发布于 2019-09-10
  • 来自专栏全栈程序员必看

    fbx文件导入3dmax_3d中z的值没办法输入

    本程序的功能就是通过xna 将3d 图像显示到winfrom 对他进行旋转操作。 一组精灵//define a SpriteBatch Model myModel; //定义一个Model//define a model float aspectRatio; //屏幕高宽比,控制3D 世界的视图怎样转换成屏幕上的2D图象(投射)用到//control the screen,make the 3d model show in 2d sreen Vector3 modelPosition = Vector3.Zero; //模型在屏幕上的位置(世界坐标系),屏幕中心为坐标原点//define a world coordinate,the origin is the center of ), aspectRatio, 1.0f, 10000.0f); //Color[] colors = new Color[3]; //for (int i = 0; i < 3; i++) //{ /

    1.1K20编辑于 2022-11-07
  • 第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页
    点击加载更多
    领券