搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏活动
注意力机制革命：Transformer在DeepSeek中的创新应用
项目背景与技术演进在人工智能快速发展的当下，深度学习技术不断突破传统方法的限制，为众多领域带来了革命性的变化。 1.1 序列建模的范式转移DeepSeek作为中国领先的通用人工智能平台，其技术演进历程反映了注意力机制的革命性突破：（一）早期序列模型在Transformer出现之前，循环神经网络（RNN）及其变体（它通过多个注意力头并行计算，每个注意力头独立地对输入序列中的元素进行加权求和，从而能够捕捉到不同类型的依赖关系。最终，将多个注意力头的输出进行拼接和线性变换，得到更丰富的特征表示。 DeepSeek注意力机制创新注意力机制的挑战：KV缓存问题标准多头注意力（MHA）在推理阶段需要存储键值（KV）缓存，随着序列长度增加，KV缓存呈平方增长，导致内存和计算瓶颈。结论注意力机制的引入和Transformer架构的提出，为深度学习领域带来了革命性的变化。
70200编辑于 2025-03-14
来自专栏注意力革命
注意力革命：大模型时代的生产关系重构与价值创造机制
与此同时，大模型技术本身却又在加速消耗注意力资源——从构建任务提示词需要注意力，执行过程监督需要注意力，到执行结果审核同样需要注意力，形成了一个完整的注意力劳动链条。深入分析人类注意力与机器注意力的对立统一规律，是优化未来生产关系的理论基础。3.1人类注意力与机器注意力的本质差异从生成机制看，人类注意力具有生物性和社会性双重特征。以研究开发为例，初期需要发散注意力广泛搜集信息，中期需要集中注意力深度攻关，后期又需要发散注意力验证应用。稀疏注意力技术中的分块注意力、局部注意力等机制，为这种动态调节提供了技术实现路径。 注意力质的飞跃阶段：当注意力数据积累到一定阈值，通过模型架构优化（如稀疏注意力、MLA机制）、训练算法改进等手段，实现注意力效能的质的提升。未来，随着大模型技术不断演进，注意力劳动将呈现三大趋势：一是注意力货币化程度加深，注意力资源的度量、交易和定价机制将更加完善；二是人机注意力融合加速，脑机接口等新技术可能实现生物注意力与机器注意力的直接交互
27010编辑于 2026-01-14
来自专栏AI大模型应用开发炼丹房
2025 Transformer技术全景：位置编码到三线性注意力的革命性突破
：编码器处理全局信息（如BERT），解码器生成序列（如GPT）位置编码革新：正弦函数（原始）→ 旋转位置编码（RoPE）→ 三线性体积编码（2025 Meta）二、Token的概率本质：语言理解的范式革命：Transformer的心脏4.1 数学本质标准注意力：2025三线性注意力（Meta创新）：其中 $\odot$ 表示Hadamard积，$K'$为第二键矩阵4.2 多头注意力代码实现import ：颜色深浅表示注意力权重强弱箭头指示token间依赖关系（如“sat”关注“cat”）由于文章篇幅有限，我这边还为粉丝整理了一份《大模型微调实战项目思维导图》自行领取。准备领域数据（问答对）train_data = [ ('量子计算原理', '利用量子比特叠加态并行计算'), ('Transformer架构', '基于自注意力的编码-解码结构')]# 3. 12.8% 注：所有代码已在PyTorch 2.3 + CUDA 12.3环境验证，建议搭配NVIDIA A10G以上显卡运行高阶注意力实验。
95710编辑于 2025-07-15
来自专栏yeedomliu
清单革命
人类的错误主要分为两类无知之错：因为我们没有掌握正确知识而犯下的错误无能之错：因为我们掌握了正确知识，但却没有正确使用而犯下的错误倾向于“无知之错”的天平现在越来越倾向于“无能之错”了第一部分　清单革命是一场观念变革结果的不确定性非常大『强制函数方法』：用相对简单而直接的方法来迫使必要行为的发生，如使用清单来塑造行为面对未知，建筑专家们相信沟通的力量，而不相信某个人的智慧，即使他是经验丰富的工程师第二部分　清单革命的行事原则
79020编辑于 2022-06-25
来自专栏云原生布道专栏
颜色革命(上)
颜色革命，这个标题很大，但却已经是一个正在进行时了，只是你可能还没有意识到，其实它业已成为当今移动互联网产品领域的已成现实。
63530编辑于 2022-03-08
来自专栏前端必修课
Codex编程革命
你还在手动写代码？未来软件开发的方式可能会彻底改变。2025年5月16日，OpenAI正式推出了AI编程领域的划时代产品——Codex。它不仅能自动编写高质量代码，还能自主完成测试、Bug修复等任务，真正成为开发者的“虚拟队友”。
1.1K10编辑于 2025-05-18
来自专栏AI算法与图像处理
注意力机制
本文旨在对深度学习注意力机制的内容进行高层次的解释，并且详细说明计算注意力的一些技术步骤。如果您需要更多的技术细节，请参考英文，特别是Cho等人最近的综述[3]。神经科学和计算神经科学[1,2]已经广泛研究了涉及注意力的神经过程[1,2]。特别是视觉注意力机制：许多动物关注其视觉输入的特定部分以计算适当的反应。我们现在将在解释注意力模型的一般工作原理。对注意力模型应用的综述文章[3] 详述了基于注意力的编码器 - 解码器网络的实现，需要更多细节知识的可以参考。 注意力机制的细致解释：注意力模型是一种采用n个参数y_1，...，y_n（在前面的例子中，y_i将是h_i）和上下文c的方法。它返回一个矢量z，它应该是y_i的“摘要”，侧重于与上下文c相关的信息。 注意力模型的一个有趣特征是算术平均值的权重是可访问的并且可以绘制。这正是我们之前显示的数字，如果此图像的重量很高，则像素更白。但这个黑匣子到底在做什么呢？整个注意力模型的数字将是这样的： ?
87310发布于 2019-05-22
来自专栏云原生布道专栏
颜色革命（下）
多谢网友提醒，将上篇链接也加上《颜色革命（上）》 1 颜色战略实践 1.1 App Logo形象设计上篇说到，对于移动端产品的设计，主要集中在品牌主色的运用以及品牌Logo形象的运用尽量以线条边沿的形式明确按钮的操作边界，让用户有操作安全边际； 5、其他支线颜色选择，大的选色原则是——尽量选择能烘托主题色的“绿叶型”颜色，而千万不要选择比主题色更亮眼的颜色，这样会分散用户注意力 4、分隔线效果主要通过取色深浅、左侧留空的方式来实现，而线条宽度尽量保持一致； 5、内容为王，满足分割效果的线条与留白既要达到分隔清晰的要求，又都要做视觉上的“弱化”处理，不能分散用户注意力 其主要思想也是遵循IOS的交互设计理念，对于重点内容突出显示，引起用户聚集，对于可忽略内容，淡化处理，尽量不分散用户注意力。
1.2K30编辑于 2022-03-08
注意力机制
注意力机制，让计算机想人一样把精力放在重要的部分。词元嵌入，把词转换成向量，苹果跟香蕉就比较相近。绝对嵌入位置,就是索引，固定唯一的位置张量嵌入将离散的数据(语音或图像)映射到连续向量空间。编码注意力机制。似合，就是一个函数去描述一组数据。dropout随机编码。组装过程中随机拔掉几个零件，让机器人不会过度依赖某个零件。因果注意力，更关注因果关系，比如在学习大模型的时候，从数据里把因果关系找出来。数学建模。多头注意力。从多个角度看不同的数据，一种小助手关注逻辑，一种小助手关注中心思想。自注意力机制中的自是什么意思？归一注意力泛化能力就是模型对新数据的适应能力。举一反三。
21110编辑于 2025-07-19
来自专栏攀攀的专栏
注意力机制
主要包括： 注意力.jpg 注意力机制源于对生物认知的研究。 ---- 注意力机制的实现主要分为软注意力(soft attention)和硬注意力(hard attention)。硬注意力就是指选择输入序列某一个位置上的信息，比如随机选择一个信息或者选择概率最高的信息。通常像是硬注意力，选取概率最高的特征向量这一操作是不可微的，很难在神经网络中通过训练来得到，主要采用强化学习的方法去学习。因此当前在神经网络中，最为主要的注意力机制都是基于软注意力。用于机器翻译的注意力 在自然语言处理领域，注意力机制主要应用于机器翻译模型中，如图2所示。
1.7K10发布于 2021-02-15
Claude 4.5编程革命
想象一下，你让AI帮你写一个复杂系统，30小时不间断，Claude Sonnet 4.5依然思路清晰、任务推进有序。它在 SWE-bench Verified（全球最权威的编程能力测试）上遥遥领先，远超同类AI。
18810编辑于 2026-04-29
来自专栏刘旷专栏
智联、前程无忧、58们的革命和被革命
近日，前程无忧发布三季度薪酬调研报告。从报告内容来看，2019年三季度的招聘市场用“冰火两重天”来形容，再合适不过。
79220发布于 2019-10-11
来自专栏智能大数据分析
【现代深度学习技术】注意力机制01：注意力提示
文章目录一、生物学中的注意力提示二、查询、键和值三、注意力的可视化小结自经济学研究稀缺资源分配以来，人们正处在“注意力经济”时代，即人类的注意力被视为可以交换的、有限的、有价值的且稀缺的商品总之，注意力不是免费的。 注意力是稀缺的，而环境中的干扰注意力的信息却并不少。比如人类的视觉神经系统大约每秒收到 10^8 位的信息，这远远超过了大脑能够完全处理的水平。一、生物学中的注意力提示 注意力是如何应用于视觉世界中的呢？图2 依赖于任务的意志提示(想读一本书)，注意力被自主引导到书上二、查询、键和值自主性的与非自主性的注意力提示解释了人类的注意力的方式，下面来看看如何通过这两种注意力提示，用神经网络来设计注意力机制的框架由于包含了自主性提示，注意力机制与全连接的层或汇聚层不同。 注意力机制通过注意力汇聚使选择偏向于值（感官输入），其中包含查询（自主性提示）和键（非自主性提示）。键和值是成对的。
29710编辑于 2025-05-07
来自专栏智能大数据分析
【现代深度学习技术】注意力机制04：Bahdanau注意力
这是通过将上下文变量视为注意力集中的输出来实现的。一、模型下面描述的Bahdanau注意力模型将遵循序列到序列学习（seq2seq）中的相同符号表达。 \alpha 是使用加性注意力打分函数计算的。、定义注意力解码器下面看看如何定义Bahdanau注意力，实现循环神经网络编码器-解码器。为了更方便地显示学习的注意力权重，以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。由于新增的注意力机制，训练要序列到序列学习（seq2seq）比没有注意力机制的慢得多。
54900编辑于 2025-05-11
来自专栏智能大数据分析
【现代深度学习技术】注意力机制05：多头注意力
然后，这 h 组变换后的查询、键和值将并行地送到注意力汇聚中。最后，将这 h 个注意力汇聚的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出。这种设计被称为多头注意力（multihead attention）。对于 h 个注意力汇聚输出，每一个注意力汇聚都被称作一个头（head）。图1展示了使用全连接层来实现可学习的线性变换的多头注意力。图1 多头注意力：多个头连结然后线性变换一、模型在实现多头注意力之前，让我们用数学语言将这个模型形式化地描述出来。 f 可以是注意力评分函数中的加性注意力和缩放点积注意力。基于适当的张量操作，可以实现多头注意力的并行计算。
39600编辑于 2025-05-13
来自专栏机器视觉CV
【注意力机制】空间注意力机制之Spatial Transformer Network
2015 NIPS（NeurIPS，神经信息处理系统大会，人工智能领域的 A 类会议）论文
8.1K30发布于 2020-07-23
注意力机制介绍
正是基于这样的理论，就产生了注意力机制。 注意力计算规则需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 最后使用softmax处理获得结果再与V做张量乘法.将Q与K的转置做点积运算, 然后除以一个缩放系数, 再使用softmax处理获得结果最后与V做张量乘法.什么是注意力机制注意力机制是注意力计算规则能够应用的深度学习网络的载体使用自注意力计算规则的注意力机制称为自注意力机制Attention机制的工作原理阶段一: query 和 key 进行相似度计算，得到一个query 和 key 相关性的分值阶段二: 将这个分值进行归一化 (softmax)，得到一个注意力的分布阶段三: 使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值有无注意力的seq2seq 架构对比无attention机制的模型无Attention
76223编辑于 2024-12-22
来自专栏机器学习入门与实战
Attention注意力机制
Attention本质 3.1 机器翻译说明Attention 3.2 注意力分配概率计算 3.3 Attention的物理含义 4. Self-Attention模型 5. 发展 1. 没有引入注意力的模型在输入句子比较短的时候问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因体现出英文单词对于翻译当前中文单词不同的影响程度，比如给出类似下面一个概率分布值：（Tom,0.3）(Chase,0.2) (Jerry,0.5) **每个英文单词的概率代表了翻译当前单词“杰瑞”时，注意力分配模型分配给不同英文单词的注意力大小理解Attention模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。增加了注意力模型的Encoder-Decoder框架理解起来如下图所示。 3.2 注意力分配概率计算这里还有一个问题：生成目标句子某个单词，比如“汤姆”的时候，如何知道Attention模型所需要的输入句子单词注意力分配概率分布值呢？
2.4K10发布于 2019-12-11
来自专栏xiaosen
注意力机制详解
注意力机制正是借鉴了这一生物学灵感，使得机器学习模型能够动态地分配其“注意力”资源，针对不同的输入部分赋予不同的重视程度，从而在纷繁复杂的数据中捕捉到最相关的特征。正是基于这样的理论，就产生了注意力机制。使用自注意力计算规则的注意力机制称为自注意力机制，NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型。 注意力机制实现步骤第一步: 根据注意力计算规则, 对Q，K，V进行相应的计算. : 使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值为了更好的说明上面的情况, 我们通过注意力来做一个机器翻译的任务，机器翻译中，我们会使用 seq2seq 的架构，
1.5K10编辑于 2024-06-02
视频生成迎来效率革命！字节提出视频生成稀疏注意力机制，计算量降20倍，速度升17.79倍!
论文链接：https://arxiv.org/pdf/2509.01085 亮点直击 BSA——一种可训练的双向动态稀疏注意力框架，该框架首次在视频扩散训练中对全注意力机制中的查询（Query）及键值对除此之外，绝大多数稀疏注意力机制大多被设计成无需训练的形式。这些未经过训练的方法通过直接截取部分KV子集来进行注意力计算，在实际训练中往往只能得出欠佳的结果。 注意力输出O计算如下： 2. 对于每一次计算得到的块间注意力得分，可以通过计算query与KV对每次得到的注意力得分中所有分数的均值和标准差，计算出一个可以选出k个关键样本的动态阈值p，也就是说根据输入注意力分数的统计特征去选出根据统计分布的关键稀疏注意力输出可以表示为：其中，为稀疏化后的注意力分数矩阵（维度，为关键 KV token 数量），是缩放因子，为最终的稀疏注意力输出，维度和输入保持一致。
56510编辑于 2025-11-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

注意力机制革命：Transformer在DeepSeek中的创新应用

注意力革命：大模型时代的生产关系重构与价值创造机制

2025 Transformer技术全景：位置编码到三线性注意力的革命性突破

清单革命

颜色革命(上)

Codex编程革命

注意力机制

颜色革命（下）

注意力机制

注意力机制

Claude 4.5编程革命

智联、前程无忧、58们的革命和被革命

【现代深度学习技术】注意力机制01：注意力提示

【现代深度学习技术】注意力机制04：Bahdanau注意力

【现代深度学习技术】注意力机制05：多头注意力

【注意力机制】空间注意力机制之Spatial Transformer Network

注意力机制介绍

Attention注意力机制

注意力机制详解

视频生成迎来效率革命！字节提出视频生成稀疏注意力机制，计算量降20倍，速度升17.79倍!

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

注意力机制革命：Transformer在DeepSeek中的创新应用

注意力革命：大模型时代的生产关系重构与价值创造机制

2025 Transformer技术全景：位置编码到三线性注意力的革命性突破​​

清单革命

颜色革命(上)

Codex编程革命

注意力机制

颜色革命（下）

注意力机制

注意力机制

Claude 4.5编程革命

智联、前程无忧、58们的革命和被革命

【现代深度学习技术】注意力机制01：注意力提示

【现代深度学习技术】注意力机制04：Bahdanau注意力

【现代深度学习技术】注意力机制05：多头注意力

【注意力机制】空间注意力机制之Spatial Transformer Network

注意力机制介绍

Attention注意力机制

注意力机制详解

视频生成迎来效率革命！字节提出视频生成稀疏注意力机制，计算量降20倍，速度升17.79倍!

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2025 Transformer技术全景：位置编码到三线性注意力的革命性突破