首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DrugOne

    字节Seed团队: Scaling线性注意力首个超越AlphaFold3

    从 AlphaFold2 到 AlphaFold3,深度学习模型不断刷新结构预测的精度上限。然而,一个长期被忽视但同样关键的问题是:这些折叠模型是否具备真正的“可扩展性”? 线性三角注意力:破解计算复杂度瓶颈 传统 AlphaFold 架构中的 三角注意力操作 具有立方级复杂度,是规模扩展的主要障碍。 SeedFold 引入了一种 线性三角注意力机制,将计算复杂度从立方级降低至二次级,在保持预测精度的同时显著提升计算效率。 研究人员提出两种模型配置: SeedFold:512 维 Pairformer + 标准三角注意力; SeedFold-Linear:384 维 Pairformer + 线性三角注意力。 蛋白单体结构预测 SeedFold 在 局部结构质量(lDDT)和整体 RMSD 指标上整体优于 AlphaFold3

    24910编辑于 2026-01-13
  • 来自专栏AI算法与图像处理

    注意力机制

    本文旨在对深度学习注意力机制的内容进行高层次的解释,并且详细说明计算注意力的一些技术步骤。如果您需要更多的技术细节,请参考英文,特别是Cho等人最近的综述[3]。 神经科学和计算神经科学[1,2]已经广泛研究了涉及注意力的神经过程[1,2]。特别是视觉注意力机制:许多动物关注其视觉输入的特定部分以计算适当的反应。 我们现在将在解释注意力模型的一般工作原理。对注意力模型应用的综述文章[3] 详述了基于注意力的编码器 - 解码器网络的实现,需要更多细节知识的可以参考。 注意力模型的一个有趣特征是算术平均值的权重是可访问的并且可以绘制。这正是我们之前显示的数字,如果此图像的重量很高,则像素更白。 但这个黑匣子到底在做什么呢?整个注意力模型的数字将是这样的: ? Neural mechanisms of selective visual attention. » Annual review of neuroscience 18.1 (1995): 193-222. [3]

    78810发布于 2019-05-22
  • 来自专栏Michael阿明学习之路

    05.序列模型 W3.序列模型和注意力机制

    选择最可能的句子 3. 集束搜索(Beam Search) 4. 改进集束搜索 5. 集束搜索的误差分析 6. Bleu 得分 7. 注意力模型直观理解 8. 注意力模型 9. 条件语言模型 和之前的 语言模型 一个主要的区别: 语言模型 随机地生成句子 条件语言模型,你要找到最有可能的英语句子,但是句子组合数量过于巨大,需要一种合适的搜索算法,集束搜索(Beam Search) 3. 在 集束宽为3时,集束搜索一次只考虑3个可能结果 如果集束宽等于1,就变成了贪心搜索算法 同时考虑多个可能的结果比如3个,10个或者其他的个数,集束搜索通常比贪婪搜索更好 4. 注意力模型直观理解 ? ? 注意力权重, a<t,t> 告诉你,当你尝试生成第 t 个英文词,它应该花多少注意力在第 t 个法语词上面。 当生成一个特定的英文词时,这允许它在每个时间步去看周围词距内的法语词要花多少注意力。 8. 注意力模型 注意力模型如何让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候,更像人类翻译 ?

    57810发布于 2021-02-19
  • 注意力机制

    注意力机制,让计算机想人一样把精力放在重要的部分。词元嵌入,把词转换成向量,苹果跟香蕉就比较相近。绝对嵌入位置,就是索引,固定唯一的位置张量嵌入将离散的数据(语音或图像)映射到连续向量空间。 编码注意力机制。似合,就是一个函数去描述一组数据。dropout随机编码。组装过程中随机拔掉几个零件,让机器人不会过度依赖某个零件。 因果注意力,更关注因果关系,比如在学习大模型的时候,从数据里把因果关系找出来。数学建模。多头注意力。从多个角度看不同的数据,一种小助手关注逻辑,一种小助手关注中心思想。自注意力机制中的自是什么意思? 归一注意力泛化能力就是模型对新数据的适应能力。举一反三。

    17710编辑于 2025-07-19
  • 来自专栏攀攀的专栏

    注意力机制

    ---- 用于图像处理的注意力 当在图像处理任务中使用卷积神经网络,提取的特征通常表现为3维的形式,分别为通道、宽和高维。 因此,图像处理领域的注意力主要针对这3个维度进行,因此就有了Channel attention和Spatial attention。 Channel attention由Hu J 等[3]提出,结构如图3所示。首先使用全局池化将特征的宽和高降为1,然后使用全连接层进行sqeeze和excitation,最终得到通道权重。 主要分为3个过程,如图5所示: Split:使用不同大小的卷积核对输入进行卷积; Fuse:对多个卷积的结果进行聚合,预测权重; Select:将聚合的结果作为权重,选择多支路的组合结果。 Attention Is All You Need[J]. arXiv, 2017. [3]. Hu J , Shen L , Sun G , et al.

    1.6K10发布于 2021-02-15
  • 来自专栏智能大数据分析

    【现代深度学习技术】注意力机制01:注意力提示

    文章目录 一、生物学中的注意力提示 二、查询、键和值 三、注意力的可视化 小结   自经济学研究稀缺资源分配以来,人们正处在“注意力经济”时代,即人类的注意力被视为可以交换的、有限的、有价值的且稀缺的商品 一、生物学中的注意力提示   注意力是如何应用于视觉世界中的呢? 图2 依赖于任务的意志提示(想读一本书),注意力被自主引导到书上 二、查询、键和值   自主性的与非自主性的注意力提示解释了人类的注意力的方式,下面来看看如何通过这两种注意力提示,用神经网络来设计注意力机制的框架 如图3所示,可以通过设计注意力汇聚的方式,便于给定的查询(自主性提示)与键(非自主性提示)进行匹配,这将引导得出最匹配的值(感官输入)。 图3 注意力机制通过注意力汇聚将查询(自主性提示)和键(非自主性提示)结合在一起,实现对值(感官输入)的选择倾向   鉴于上面所提框架在图3中的主导地位,因此这个框架下的模型将成为本章的中心。

    24810编辑于 2025-05-07
  • 来自专栏智能大数据分析

    【现代深度学习技术】注意力机制05:多头注意力

    f 可以是注意力评分函数中的加性注意力和缩放点积注意力。 输出X的形状:(batch_size,num_heads,查询或者“键-值”对的个数, # num_hiddens/num_heads) X = X.permute(0, 2, 1, 3) *num_heads,查询或者“键-值”对的个数, # num_hiddens/num_heads) return X.reshape(-1, X.shape[2], X.shape[3] transpose_qkv函数的操作""" X = X.reshape(-1, num_heads, X.shape[1], X.shape[2]) X = X.permute(0, 2, 1, 3) num_heads, 0.5) attention.eval() batch_size, num_queries = 2, 4 num_kvpairs, valid_lens = 6, torch.tensor([3,

    30700编辑于 2025-05-13
  • 来自专栏智能大数据分析

    【现代深度学习技术】注意力机制04:Bahdanau注意力

    这个新的基于注意力的模型与序列到序列学习(seq2seq)中的模型相同,只不过其中式(3)中的上下文变量 \mathbf{c} 在任何解码时间步 t' 都会被 \mathbf{c}_{t'} 替换。 、定义注意力解码器   下面看看如何定义Bahdanau注意力,实现循环神经网络编码器-解码器。 为了更方便地显示学习的注意力权重,以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。 由于新增的注意力机制,训练要序列到序列学习(seq2seq)比没有注意力机制的慢得多。 num_steps, device, True) print(f'{eng} => {translation}, ', f'bleu {d2l.bleu(translation, fra, k=2):.3f

    45500编辑于 2025-05-11
  • 注意力机制介绍

    正是基于这样的理论,就产生了注意力机制。 注意力计算规则需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 最后使用softmax处理获得结果再与V做张量乘法.将Q与K的转置做点积运算, 然后除以一个缩放系数, 再使用softmax处理获得结果最后与V做张量乘法.什么是注意力机制注意力机制是注意力计算规则能够应用的深度学习网络的载体 使用自注意力计算规则的注意力机制称为自注意力机制Attention机制的工作原理阶段一: query 和 key 进行相似度计算,得到一个query 和 key 相关性的分值阶段二: 将这个分值进行归一化 (softmax),得到一个注意力的分布阶段三: 使用注意力分布和 value 进行计算,得到一个融合注意力的更好的 value 值有无注意力的seq2seq 架构对比无attention机制的模型无Attention

    63623编辑于 2024-12-22
  • 来自专栏机器视觉CV

    注意力机制】空间注意力机制之Spatial Transformer Network

    3) 变换的比例不一定要一致。 ? 薄板样条变换 (TPS) 薄板样条函数 (TPS) 是一种很常见的插值方法。因为它一般都是基于 2D 插值,所以经常用在在图像配准中。 nn.Linear(10 * 3 * 3, 32), nn.ReLU(True), nn.Linear(32, 3 * 2) ) forward function def stn(self, x): xs = self.localization(x) xs = xs.view(-1, 10 * 3 * 3) theta = self.fc_loc(xs) theta = theta.view(-1, 2, 3) grid = F.affine_grid 实验效果视频:https://drive.google.com/file/d/0B1nQa_sA3W2iN3RQLXVFRkNXN0k/view 李弘毅讲 STN 网络:https://www.youtube.com

    7.9K30发布于 2020-07-23
  • 来自专栏xiaosen

    注意力机制详解

    4) >>> mat2 = torch.randn(10, 4, 5) >>> res = torch.bmm(input, mat2) >>> res.size() torch.Size([10, 3, i就是上面例子所说的'汤姆', 那么Lx就是3, h1=f('Tom'), h2=f('Chase'),h3=f('jerry')分别输入句子每个单词的语义编码, 对应的注意力模型权值则分别是0.6, 4维向量 import torch x = [ [1, 0, 1, 0], # Input 1 [0, 2, 0, 2], # Input 2 [1, 1, 1, 1] # Input 3 比如说,每一个表示我们希望是一个3维的向量。由于输入是4维,所以我们的参数矩阵为 4*3 维。 ] ] w_query = [ [1, 0, 1], [1, 0, 0], [0, 0, 1], [0, 1, 1] ] w_value = [ [0, 2, 0], [0, 3,

    1.3K10编辑于 2024-06-02
  • 来自专栏机器学习入门与实战

    Attention注意力机制

    编解码器中的Attention 2.1 计算背景变量 2.2 更新隐藏状态 3. 例如,在输出序列的时间步1,解码器可以主要依赖“They”“are”的信息来⽣成“Ils”,在时间步2则主要使⽤来⾃“watching”的编码信息⽣成“regardent”,最后在时间步3则直接映射句号 3. 假设下标i就是上面例子所说的“ 汤姆” ,那么Lx就是3,h1=f(“Tom”),h2=f(“Chase”),h3=f(“Jerry”)分别是输入句子每个单词的语义编码,对应的注意力模型权值则分别是0.6,0.2,0.2 3.2 注意力分配概率计算 这里还有一个问题:生成目标句子某个单词,比如“汤姆”的时候,如何知道Attention模型所需要的输入句子单词注意力分配概率分布值呢?

    2.3K10发布于 2019-12-11
  • 来自专栏智能大数据分析

    【现代深度学习技术】注意力机制03:注意力评分函数

    #@save def masked_softmax(X, valid_lens): """通过在最后一个轴上掩蔽元素来执行softmax操作""" # X:3D张量,valid_lens masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3]))   同样,也可以使用二维张量,为矩阵样本中的每一行指定有效长度。 masked_softmax(torch.rand(2, 2, 4), torch.tensor([[1, 3], [2, 4]])) 二、加性注意力   一般来说,当查询和键是不同长度的矢量时,可以使用加性注意力作为评分函数 k) = \mathbf w_v^\top \text{tanh}(\mathbf W_q\mathbf q + \mathbf W_k \mathbf k) \in \mathbb{R} \tag{3} 式(3)中将查询和键连结起来后输入到一个多层感知机(MLP)中,感知机包含一个隐藏层,其隐藏单元数是一个超参数 h 。通过使用 \tanh 作为激活函数,并且禁用偏置项。   下面来实现加性注意力

    36500编辑于 2025-05-10
  • 来自专栏深度学习

    【深度学习实验】注意力机制(四):点积注意力与缩放点积注意力之比较

    人脑通过注意力来解决信息超载问题,注意力分为两种主要类型: 聚焦式注意力(Focus Attention): 这是一种自上而下的有意识的注意力,通常与任务相关。 注意力的计算过程:注意力机制的计算分为两步。首先,在所有输入信息上计算注意力分布,然后根据这个分布计算输入信息的加权平均。 掩码Softmax 操作 【深度学习实验】注意力机制(二):掩码Softmax 操作 3. {U}\mathbf{q}) 【深度学习实验】注意力机制(三):打分函数——加性注意力模型 3. torch.utils import data def masked_softmax(X, valid_lens): """通过在最后一个轴上掩蔽元素来执行softmax操作""" # X:3D

    1.4K10编辑于 2024-07-30
  • 来自专栏YOLO大作战

    YOLOv5改进---注意力机制:DoubleAttention注意力,SENet进阶版本

    摘要:DoubleAttention注意力助力YOLOv5,即插即用,性能优于SENet1. 该网络结构采用双重注意力机制,包括Spatial Attention和Channel Attention。 本文的主要创新点是提出了一个新的注意力机制,你可以看做SE的进化版本,在各CV任务测试性能如下​ 1.1 加入 common.py中###################### DoubleAttention 2]], # 1-P2/4 [-1, 3, C3, [128]], [-1, 1, Conv, [256, 3, 2]], # 3-P3/8 [-1, 6, C3, [256]], [[-1, 4], 1, Concat, [1]], # cat backbone P3 [-1, 3, C3, [256, False]], # 17 (P3/8-small) [-

    89610编辑于 2023-11-30
  • 来自专栏机器之心

    学界 | 百度发布Deep Voice 3:全卷积注意力机制TTS系统

    近日,百度发布了 Deep Voice 3,该研究的论文已经提交 ICLR 2018 大会。 Deep Voice 3 架构由 3 个部分组成: 编码器:一种全卷积编码器,将文本特征转换为内部学习表征。 图 1.Deep Voice 3 使用残差卷积层编码文本特征为每个时间步的键值对向量,这些键值对向量随后馈送到基于注意力的解码器中。 论文链接:https://arxiv.org/abs/1710.07654 摘要 我们提出了 Deep Voice 3,一个基于全卷积注意力机制的神经文本转语音(TTS)系统。 此外,我们找到了基于注意力的语音合成网络会遇到的常见错误,展示了如何解决它们,并比较了几个不同的波形合成方法。我们也展示了如何在一台单 GPU 服务器上每天实现 1000 万次推断。

    1K70发布于 2018-05-10
  • 来自专栏YOLO大作战

    YOLOv5改进---注意力机制:SKAttention注意力,SENet进阶版本

    摘要:SKAttention注意力助力YOLOv5,即插即用,性能优于SENet1. Split就是一个multi-branch的操作,用不同的卷积核进行卷积得到不同的特征;Fuse部分就是用SE的结构获取通道注意力的矩阵(N个卷积核就可以得到N个注意力矩阵,这步操作对所有的特征参数共享 2]], # 1-P2/4 [-1, 3, C3, [128]], [-1, 1, Conv, [256, 3, 2]], # 3-P3/8 [-1, 6, C3, [256]], [[-1, 4], 1, Concat, [1]], # cat backbone P3 [-1, 3, C3, [256, False]], # 17 (P3/8-small) [- 1, 1, Conv, [256, 3, 2]], [[-1, 14], 1, Concat, [1]], # cat head P4 [-1, 3, C3, [512, False]],

    1.4K10编辑于 2023-11-30
  • 来自专栏AI科技大本营的专栏

    Python 实现注意力机制

    1.1 基本方法介绍 当前注意力机制的主流方法是将特征图中的潜在注意力信息进行深度挖掘,最常见的是通过各种手段获取各个特征图通道间的通道注意力信息与特征图内部像素点之间的空间注意力信息,获取的方法也包括但不仅限于卷积操作 目前,获取注意力的方法基本基于通道间的注意力信息、空间像素点之间的注意力信息和卷积核选择的注意力信息,是否能够从新的方向去获取特征图更丰富的注意力信息,或者以新的方式或手段去获取更精准的注意力信息也是未来需要关注的一个重点 代码如下: layer3 = Dense(machine_vocab_size, activation=softmax) def get_model(Tx, Ty, layer1_size, layer2 return_sequences=True), merge_mode='concat')(X) a2 = attention_layer(a1, layer2_size, Ty) a3 = [layer3(timestep) for timestep in a2] model = Model(inputs=[X], outputs=a3) return model 2.3

    1.6K50发布于 2021-09-27
  • 来自专栏AIWalker

    CANet|拼接注意力网络

    该文的主要贡献包含以下几点: 通过简洁而有效的concat与特征选择机制,构件了一种新颖的连接机制; 在每个block内同时使用了像素级与通道级注意力机制,有助于提取更有强有力的特征; 通过充分实验验证了所提方法在压缩伪影移出与降噪方面的 Method 下图给出了该文所提网络的整体流程图,它包含N个注意力模块与跳过连接,每个注意力模块又包含多个带注意力机制的block。 ? 下图给出了图像超分领域用的比较多的几个:SRGAN中的模块(见下图a)、EDSR中的ResBlock(见下图b)、RCAN中的模块(见下图c)以及本文提出的注意力模块(下图d)。

    1.3K20发布于 2020-08-21
  • 来自专栏机器之心

    注意力模型深度综述:注意力类型和网络架构都有什么

    在这个例子中,注意力模型知道了在五个句子中,第一句和第三句更相关。 ? 图 1:用注意力建模对 Yelp 评论进行分类的例子。 研究者对各种引入了注意力的神经架构进行了回顾,还展示了注意力如何提高神经模型的可解释性。最后,研究者讨论了建模注意力起到重大影响的一些应用。 这些注意力权重之后会被用于构建语境向量 c,而该向量被作为输入传递给解码器。 研究者将注意力分为四大类,并阐明了每一大类中不同类型的注意力,如下表所示(表 1)。 ? 表 1:各大类别中的注意力类型。 为了理解这一概念,研究者提供了一系列重要的技术论文,并在表 2 中详细说明了本文方法所用到的多种注意力类型。 ? 表 2:有关注意力模型技术方法的重要论文。 注意力网络架构 在这一部分,研究者描述了与注意力相关的三种显著的神经架构:(1)编码器-解码器框架;(2)将注意力扩展至单个输入序列之外的记忆网络;(3)利用注意力规避循环模型序列处理组件的架构。

    1.1K30发布于 2019-04-29
领券