首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏活动

    注意力机制革命:Transformer在DeepSeek中的创新应用

    项目背景与技术演进在人工智能快速发展的当下,深度学习技术不断突破传统方法的限制,为众多领域带来了革命性的变化。 1.1 序列建模的范式转移DeepSeek作为中国领先的通用人工智能平台,其技术演进历程反映了注意力机制的革命性突破:(一)早期序列模型在Transformer出现之前,循环神经网络(RNN)及其变体( 它通过多个注意力头并行计算,每个注意力头独立地对输入序列中的元素进行加权求和,从而能够捕捉到不同类型的依赖关系。最终,将多个注意力头的输出进行拼接和线性变换,得到更丰富的特征表示。 扩展性测试: GPU数量吞吐量(tokens/sec)加速比1 1,520 1x 4 5,830 3.83x 8 10,470 结论注意力机制的引入和Transformer架构的提出,为深度学习领域带来了革命性的变化。

    60300编辑于 2025-03-14
  • 来自专栏注意力革命

    注意力革命:大模型时代的生产关系重构与价值创造机制

    与此同时,大模型技术本身却又在加速消耗注意力资源——从构建任务提示词需要注意力,执行过程监督需要注意力,到执行结果审核同样需要注意力,形成了一个完整的注意力劳动链条。 深入分析人类注意力与机器注意力的对立统一规律,是优化未来生产关系的理论基础。3.1人类注意力与机器注意力的本质差异从生成机制看,人类注意力具有生物性和社会性双重特征。 以研究开发为例,初期需要发散注意力广泛搜集信息,中期需要集中注意力深度攻关,后期又需要发散注意力验证应用。稀疏注意力技术中的分块注意力、局部注意力等机制,为这种动态调节提供了技术实现路径。 注意力质的飞跃阶段:当注意力数据积累到一定阈值,通过模型架构优化(如稀疏注意力、MLA机制)、训练算法改进等手段,实现注意力效能的质的提升。 未来,随着大模型技术不断演进,注意力劳动将呈现三大趋势:一是注意力货币化程度加深,注意力资源的度量、交易和定价机制将更加完善;二是人机注意力融合加速,脑机接口等新技术可能实现生物注意力与机器注意力的直接交互

    19610编辑于 2026-01-14
  • 来自专栏LET

    人工智能的革命:人类的死或生(7~10)

    看上去是一个不可思议的故事,一个用来手写的机器最后终结了地球上所有的生命,只是为了让这个星系布满问候的卡片。这正是霍金,马斯克,盖茨和Bostrom担忧的地方。最让焦虑区的人们担忧的,不是超级AI本身,而是人类对超级AI的无知者无畏。你忘了在夺宝奇兵中那个无畏的家伙是怎么无知的死掉的吗? 可能现在你满是疑问。究竟发生了什么,让人们突然都死了??这是Turry的杰作。为什么她会对抗我们,为什么没有预防措施来阻止这一切的发生?为什么一个仅仅会写字的Turry突然掌握了纳米技术,并且知道如何造成全球物种的灭绝?而

    736110发布于 2018-06-20
  • 来自专栏AI大模型应用开发炼丹房

    2025 Transformer技术全景:位置编码到三线性注意力革命性突破​​

    :编码器处理全局信息(如BERT),解码器生成序列(如GPT)位置编码革新:正弦函数(原始)→ 旋转位置编码(RoPE)→ 三线性体积编码(2025 Meta)二、Token的概率本质:语言理解的范式革命 :Transformer的心脏4.1 数学本质标准注意力:2025三线性注意力(Meta创新):其中 $\odot$ 表示Hadamard积,$K'$为第二键矩阵4.2 多头注意力代码实现import :颜色深浅表示注意力权重强弱箭头指示token间依赖关系(如“sat”关注“cat”)由于文章篇幅有限,我这边还为粉丝整理了一份《大模型微调实战项目思维导图》自行领取。 准备领域数据(问答对)train_data = [ ('量子计算原理', '利用量子比特叠加态并行计算'), ('Transformer架构', '基于自注意力的编码-解码结构')]# 3. 12.8% 注:所有代码已在PyTorch 2.3 + CUDA 12.3环境验证,建议搭配NVIDIA A10G以上显卡运行高阶注意力实验。

    83710编辑于 2025-07-15
  • 来自专栏DotNet NB && CloudNative

    .NET 10全面解析:性能革命与云原生开发新纪元

    NET 10即将颠覆传统开发范式,从本机AOT编译到AI集成,这份技术蓝图将彻底改变您的开发体验。 深度整合:90%以上Web应用可享受AOT速度优势 • 反射依赖削减:运行时性能提升40%+ • 容器优化:冷启动时间缩短60%,内存占用降低35% 性能飞跃数据对比 指标 .NET 9基准 .NET 10 优化 提升幅度 JIT编译速度 120ms 75ms 37.5% GC暂停时间 250ms 120ms 52% 服务端启动时间 3.2s 1.8s 43.75% C# 13生产力革命 代码表达力升级 .WithReplicas() .WithResourceLimits(cpu: , memory: "4Gi") .Build(); 云服务优化对比 场景 传统方案延迟 .NET 10 基于WorkStealing的自适应算法 +40%吞吐 分层编译2.0 动态代码分级优化 -25%启动耗时 量子模拟器 Q#与C#混合编程模型 领先竞品 微软正在重新定义企业级开发的边界——.NET 10

    93210编辑于 2025-06-15
  • 来自专栏YOLO大作战

    YOLOv10涨点改进:注意力魔改 | 轻量级自注意力机制CoordAttention | CVPR2021

    本文改进:替换YOLOv10中的PSA进行二次创新,1)CoordAttention注意力替换 PSA中的多头自注意力模块MHSA注意力;2) CoordAttention直接替换 PSA;CoordAttention 它可以捕捉特定位置的空间关系,并在注意力计算中加以利用。 与常规的注意力机制不同,CoordAttention在计算注意力时,不仅会考虑输入的特征信息,还会考虑每个像素点的位置信息,从而更好地捕捉空间上的局部关系和全局关系。 SE、CBAM和CA模块注意力结果可视化,CA更能精确关注感兴趣目标。 MHSA注意力实验结果如下:mAP50从0.683提升至0.7 YOLOv10n-AKConv summary (fused): 297 layers, 2663046 parameters, 0 gradients

    4.8K12编辑于 2024-06-12
  • 来自专栏YOLO大作战

    基于YOLOv10的工业油污缺陷检测算法,BRA注意力替换 PSA中的多头自注意力模块MHSA注意力(一)

    BRA注意力替换 PSA中的多头自注意力模块MHSA注意力 原始mAP50为 0.584提升至0.596 博主简介AI小怪兽,YOLO骨灰级玩家,1)YOLOv5、v7、v8、v9、v10优化创新 我们努力的成果是用于实时端到端对象检测的新一代YOLO系列,称为YOLOV10。广泛的实验表明,YOLOV10在各种模型规模上实现了最先进的性能和效率。 BiLevelRoutingAttention | CVPR2023原文链接:YOLOv10涨点改进:注意力魔改 | 动态稀疏注意力的双层路由方法BiLevelRoutingAttention | CVPR2023 _yolov10改进-CSDN博客 本文改进:替换YOLOv10中的PSA进行二次创新,1)BRA注意力替换 PSA中的多头自注意力模块MHSA注意力;2) BRA直接替换 PSA;改进1结构图:改进 PSA中的多头自注意力模块MHSA注意力(一)2) 具有切片操作的SimAM注意力,魔改SimAM助力缺陷检测(二) 3) 一种基于YOLOv10的高精度工业油污缺陷检测算法(原创自研)

    59610编辑于 2025-01-13
  • 来自专栏yeedomliu

    清单革命

    人类的错误主要分为两类 无知之错:因为我们没有掌握正确知识而犯下的错误 无能之错:因为我们掌握了正确知识,但却没有正确使用而犯下的错误 倾向于“无知之错”的天平现在越来越倾向于“无能之错”了 第一部分 清单革命是一场观念变革 结果的不确定性非常大 『强制函数方法』:用相对简单而直接的方法来迫使必要行为的发生,如使用清单来塑造行为 面对未知,建筑专家们相信沟通的力量,而不相信某个人的智慧,即使他是经验丰富的工程师 第二部分 清单革命的行事原则

    75020编辑于 2022-06-25
  • 来自专栏MixLab科技+设计实验室

    比Claude快10倍,Diffusion 正在吃掉自回归#AI推理范式革命

    在英伟达 H100 上,它能实现超过每秒 1000 个 token 的生成速度,比 GPT-4o 快上 10 倍。这不是微调或压缩的功劳,而是架构层面的质变。 这个开源的语音识别模型,由只有 6 人、每月 GPU 预算不到 10 万美元的小团队打造,却在 STT(语音转文字)领域实现了对 Whisper 的全面超越。

    13710编辑于 2026-03-25
  • 来自专栏数据的力量

    家有2一10岁孩子的赶紧保存,注意力训练,超有用!

    第一关听课不走神题 训练目的:训练学生学习能力,能使学生上课专心听讲,认真写作业,考试不粗心,提高学习成绩 训练要求:每天训练10分钟,放学后在家里写作业前训练,由家长监督训练情况,必须每天坚持训练,效果明显 针对孩子注意力训练集锦 2.1. 按顺序找数字 我国年轻的数学家杨乐、张广厚,小时候都曾采用快速做习题的办法,严格训练自己集中注意力。这里给大家介绍一种在心理学中用来锻炼注意力的小游戏。 可以自己多制做几张这样的训练表,每天训练一遍,相信注意力水平一定会逐步提高! ? 2.2. 玩扑克游戏 可锻炼注意力高度集中和快速反应能力。 这种方法能高度培养注意力的集中,由于是游戏,符合孩子的心理特点,非常受孩子欢迎,玩起来孩子的积极性很高。每天坚持玩一阵,注意力会有所提高。 2.3. 这种游戏由于要做到口、耳、心并用,因此能让注意力高度集中,同时也锻炼了思维快速反应能力,而且这种游戏气氛活跃,能调动人的积极性,孩子玩起来,乐此不疲。 来源:克拉玛依网

    52720发布于 2018-07-23
  • 来自专栏云原生布道专栏

    颜色革命(上)

    颜色革命,这个标题很大,但却已经是一个正在进行时了,只是你可能还没有意识到,其实它业已成为当今移动互联网产品领域的已成现实。

    58530编辑于 2022-03-08
  • 来自专栏后端云

    独步AI领域:免费Claude 2登场,引领代码、数学、推理革命10万token!

    Claude 2 昨天正式发布,并且任何人可以登陆官网直接免费使用。废话不多说,直接上官方网址:https://claude.ai/chats

    1.1K40编辑于 2023-09-01
  • 来自专栏前端必修课

    Codex编程革命

    你还在手动写代码?未来软件开发的方式可能会彻底改变。2025年5月16日,OpenAI正式推出了AI编程领域的划时代产品——Codex。它不仅能自动编写高质量代码,还能自主完成测试、Bug修复等任务,真正成为开发者的“虚拟队友”。

    89210编辑于 2025-05-18
  • 来自专栏人工智能-chatgpt

    10分钟快速搭建自己的chatgpt,迎接人工智能革命

    ChatGPT 是由 OpenAI 于2022年11月推出的一个预训练的对话式大规模语言模型。短短数天便已火爆所有社交媒体。国内科技公司风起云涌,但是未有与之匹敌的人工智能。未来很长一段时间,我们都将只能使用chatgpt简化工作,提高工作效率。

    28.8K101编辑于 2023-02-15
  • 来自专栏AI算法与图像处理

    注意力机制

    本文旨在对深度学习注意力机制的内容进行高层次的解释,并且详细说明计算注意力的一些技术步骤。如果您需要更多的技术细节,请参考英文,特别是Cho等人最近的综述[3]。 神经科学和计算神经科学[1,2]已经广泛研究了涉及注意力的神经过程[1,2]。特别是视觉注意力机制:许多动物关注其视觉输入的特定部分以计算适当的反应。 我们现在将在解释注意力模型的一般工作原理。对注意力模型应用的综述文章[3] 详述了基于注意力的编码器 - 解码器网络的实现,需要更多细节知识的可以参考。 例如在Raffel等[10]中就是这种情况,其中注意力模型是完全前馈的。 Teaching machines to read and comprehend. » Advances in Neural Information Processing Systems. 2015. [10

    78810发布于 2019-05-22
  • 来自专栏云原生布道专栏

    颜色革命(下)

    多谢网友提醒,将上篇链接也加上《颜色革命(上)》 1 颜色战略实践 1.1 App Logo形象设计 上篇说到,对于移动端产品的设计,主要集中在品牌主色的运用以及品牌Logo形象的运用 尽量以线条边沿的形式明确按钮的操作边界,让用户有操作安全边际; 5、其他支线颜色选择,大的选色原则是——尽量选择能烘托主题色的“绿叶型”颜色,而千万不要选择比主题色更亮眼的颜色,这样会分散用户注意力 4、分隔线效果主要通过取色深浅、左侧留空的方式来实现,而线条宽度尽量保持一致; 5、内容为王,满足分割效果的线条与留白既要达到分隔清晰的要求,又都要做视觉上的“弱化”处理,不能分散用户注意力 其主要思想也是遵循IOS的交互设计理念,对于重点内容突出显示,引起用户聚集,对于可忽略内容,淡化处理,尽量不分散用户注意力

    1.1K30编辑于 2022-03-08
  • 来自专栏腾讯云可观测专栏

    故障定位提速 10 倍!新能源汽车全球化背后的可观测革命

    10s 内定位“集群 A->Deployment->Pod 内存超限”。 再结合 Prometheus & Grafana 查看相关指标变化。 2.3、AR 式故障诊断 客户的运维 & 研发团队使用可观测平台,建立“告警->诊断->修复”闭环: 收到可观测平台->告警管理系统告警:等待连接数>10个的告警 自动跳转 APM 链路追踪,分析查看数据库异常分析 三、可观测体系的价值转化 3.1 故障定位效率提升 客户自监控上云以来,结合可观测平台各个子产品:告警+APM+Prometheus,从“小时级人工摸排”转变为“5分钟定位10分钟解决" 通过 Prometheus 指标路由矩阵:APM 自定义指标与 Prometheus 实现 10ms 级数据同步。 结语 该新能源汽车的实践表明,可观测体系不仅仅是技术工具的升级,更是运维的范式革命

    42010编辑于 2025-04-16
  • 注意力机制

    注意力机制,让计算机想人一样把精力放在重要的部分。词元嵌入,把词转换成向量,苹果跟香蕉就比较相近。绝对嵌入位置,就是索引,固定唯一的位置张量嵌入将离散的数据(语音或图像)映射到连续向量空间。 编码注意力机制。似合,就是一个函数去描述一组数据。dropout随机编码。组装过程中随机拔掉几个零件,让机器人不会过度依赖某个零件。 因果注意力,更关注因果关系,比如在学习大模型的时候,从数据里把因果关系找出来。数学建模。多头注意力。从多个角度看不同的数据,一种小助手关注逻辑,一种小助手关注中心思想。自注意力机制中的自是什么意思? 归一注意力泛化能力就是模型对新数据的适应能力。举一反三。

    17810编辑于 2025-07-19
  • 来自专栏攀攀的专栏

    注意力机制

    主要包括: 注意力.jpg 注意力机制源于对生物认知的研究。 ---- 注意力机制的实现主要分为软注意力(soft attention)和硬注意力(hard attention)。 硬注意力就是指选择输入序列某一个位置上的信息,比如随机选择一个信息或者选择概率最高的信息。 通常像是硬注意力,选取概率最高的特征向量这一操作是不可微的,很难在神经网络中通过训练来得到,主要采用强化学习的方法去学习。因此当前在神经网络中,最为主要的注意力机制都是基于软注意力。 用于机器翻译的注意力 在自然语言处理领域,注意力机制主要应用于机器翻译模型中,如图2所示。

    1.6K10发布于 2021-02-15
  • 来自专栏DotNet NB && CloudNative

    .NET 10金融科技性能革命:本机AOT编译如何将延迟降低80%

    经过六个月对某大型金融机构核心交易API的优化实践,我们发现.NET 10中一个未被充分重视的特性正在引发革命性变革——本机AOT编译(Native Ahead-of-Time Compilation)

    1.1K10编辑于 2025-06-17
领券