首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型架构算力对比:Decoder-only、Encoder-Decoder、MoE深度解析.71

    二、三种架构的定位1. Decoder-only(仅解码器)架构代表模型:GPT 系列、LLaMA 系列、Qwen 系列等。 模型架构优化:采用 Decoder-only 架构(推理友好,KV 缓存优化空间大),避免 Encoder-Decoder 架构的额外开销。 分工明确,Encoder 负责理解,Decoder 负责生成,在复杂序列任务中,模型能力优于同等算力的 Decoder-only 架构。 理解大模型发展趋势:大模型的发展始终围绕“提升能力”和“降低算力成本” 两个核心,Decoder-only 架构的流行、MoE 模型的兴起,都是算力优化的结果,理解算力差异可以帮助我们把握大模型的未来发展方向 三种大模型架构的算力核心差异主要体现在注意力机制、参数量与计算密度上,整体算力消耗从高到低依次为 Encoder-Decoder、Decoder-only、MoE 架构

    18843编辑于 2026-04-09
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:Encoder-only与Decoder-only模型架构:基于本地小模型的实践解析

    ​一、前言 在大模型蓬勃发展的今天,我们天天被动输入,一度对这个名字都耳熟能详,但对于主流架构可能还没有接触的很深,大模型的Encoder-only与Decoder-only两大架构犹如两条截然不同的技术路径 内容创作、智能客服、代码生成等场景需要模型具备持续创作能力,这时候Decoder-only架构展现出独特价值。它就像不知疲倦的创作者,能够根据简单提示生成丰富内容。 核心架构Encoder-only模型的核心是Transformer的编码器部分。 Decoder-only 模型就是这样一位成语接龙高手。 代表模型GPT 是 Decoder-only 架构最著名的代表,它的名字就揭示了其本质:生成式预训练Transformer。GPT 的训练目标非常简单直接:预测下一个词。

    52832编辑于 2026-01-17
  • 架构师的“9域43项”能力模型

    1 腾讯云社区的【架构能力模型】文章汇总 2 架构岗位的层次&能力模型 3 产品架构师能力模型9域43项) 4 产品架构师成长阶梯(从后备到专家,共5级) 5 英雄帖:邀您扩充模型AI相关能力组、能力项 1 腾讯云社区的【架构能力模型】文章汇总 cloud.tencent.com/developer/ask/2160601 zhuanlan.zhihu.com/p/1904810287162458696 我后面能力模型有块分解、链分解等,算是部分呼应 文3:从【业务】到【管理】到【技术】共六组能力 2 架构岗位的层次&能力模型 细说的话,架构师能力不止一个模型,看岗位。 图片 图片 3 产品架构师能力模型9域43项) 软能力:思维力、文档力、沟通力 支撑组:技术力、设计力、工程力 高级组:经验力、督导力、创造力 4 产品架构师成长阶梯(从后备到专家,共5级) 图片 图片 图片 图片 图片 ---- 5 英雄帖:邀您扩充模型AI相关能力组、能力项 GenAI时代架构能力模型必变化,欢迎朋友们补充,发文章到社区(https://cloud.tencent.com/developer

    25.5K73编辑于 2025-05-11
  • 来自专栏Python进阶之路

    详解为什么现在的 LLMs 大都是 Decoder-only架构

    首先概述几种主要的架构: Encoder-only:以谷歌的 BERT 为代表。 Encoder-Decoder:以谷歌的 T5、Meta 的 BART 为代表。 基于自回归空白填充的通用语言模型:清华大学的 GLM。 XLNet:XLNet 在那时是一种通用的自回归预训练方法。 通过最大化所有可能的因式分解排列的对数似然,学习双向语境信息;用自回归本身的特点克服 BERT 的缺点;此外,XLNet 还融合了那时最优的自回归模型 Transformer-XL 的思路。 前缀语言模型(Prefix Language Model,PrefixLM)结合掩码语言模型和因果语言模型的优点,同时避免它们的不足。

    50800编辑于 2024-05-25
  • 来自专栏AI前沿技术

    以GPT为代表的Decoder-Only架构凭啥C位出道?

    模型架构可以分为三类 Decoder-Only,Encoder-Only和Encoder-Decoder。 不同架构对应不同的训练任务,并在不同的场景任务上达到SOTA效果。 3)讨论主流厂商的大模型,采用Decoder-only架构的原因。 4,Decoder-Only 架构 4.1,自回归定义 自回归(Auto-regressive model)模型采用经典的语言模型任务进行预训练,即给出上文预测下文,其中最经典的模型是GPT(Generative 随后,模型在下游任务(文本蕴含、文本分类、问答等)上通过有监督微调来适配不同场景,最终在 9/12 的任务上取得了 SOTA,证明了 Transformer 架构在语言建模上的可行性。 Decoder-only架构加next token predicition 的方式,每个位置所能接触的信息比其他架构少,要预测下一个token难度更高,当模型足够大,数据足够多的时候,Decoder-only

    83010编辑于 2026-01-13
  • 来自专栏Python与算法之美

    9模型的评估

    模块中的交叉验证相关方法可以评估模型的泛化能力,能够有效避免过度拟合。 二,分类模型的评估 模型分类效果全部信息: confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果: accuracy 正确率。通用分类评估指标。 模型对某种类别的分类效果: precision 精确率,也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率,也叫查全率。模型识别出全部正样本的能力。 三,回归模型的评估 回归模型最常用的评估指标有: r2_score(r方,拟合优度,可决系数) explained_variance_score(解释方差得分) ? ? 留出法 为了解决过拟合问题,常见的方法将数据分为训练集和测试集,用训练集去训练模型的参数,用测试集去测试训练后模型的表现。

    96631发布于 2020-07-17
  • 来自专栏人工智能

    什么是Decoder-only架构?为什么GPT系列专注于预测下一个词?

    什么是Decoder-only架构?为什么GPT系列专注于预测下一个词? 最著名的Decoder-only模型就是GPT系列(GenerativePre-trainedTransformer)。 这就是Decoder-only架构的核心思想:专业化地做好"生成"这一件事。二、为什么需要专门的"生成"模型? 单向注意力vs双向注意力模型类型注意力方向核心优势典型代表Decoder-only单向(从左到右)自回归生成、避免信息泄露GPTEncoder-only双向完整上下文理解BERTGPT的单向注意力确保了在生成第 就像人类社会中的专业分工一样,AI模型也在向着专业化发展。Decoder-only架构证明了,在特定领域做到极致,往往比试图面面俱到更有效。

    34110编辑于 2026-03-06
  • 来自专栏人工智能

    解码器架构:构建智能语言模型的核心设计

    在现代自然语言处理领域,Decoder-only(解码器)架构是构建语言模型的重要设计之一。这种架构尤其适合生成任务,例如对话生成、自动摘要、代码补全等。 Decoder-only 架构是基于 Transformer 的一种深度学习模型设计,专注于生成目标序列。它不直接依赖显式的编码器,而是通过自注意力机制处理输入,预测下一个单词或符号。 技术实现:理论与代码分析为了让这一架构更加直观,我们通过 Python 和 PyTorch 展示一个简单的 Decoder-only 模型。 案例研究:GPT 模型的成功实践GPT(Generative Pre-trained Transformer)是 Decoder-only 架构最著名的应用之一。 通过部署 GPT 模型,该平台将用户问题的响应时间缩短了 40%,显著提升了用户体验。这说明 Decoder-only 架构不仅在理论上高效,在实际场景中也具备广泛的适用性。

    85210编辑于 2025-01-12
  • 来自专栏ADAS性能优化

    Armv9安全新架构

    Arm在今年3月份推出了ARmv9.Arm 期望Armv9架构将是未来3000亿颗基于Arm架构芯片的技术先驱,而Armv9架构中,ARM 提供了机密计算Arm Confidential ComputeArchitecture (Arm CCA)的安全新架构。 CCA将成为改变行业在应用程序中构建计算环境信任模型的处理方式。 Arm CCA 的愿景是在计算发生的任何地方保护所有数据和代码,释放数据和人工智能的力量和全部潜力。 Arm CCA 是一系列硬件和软件架构创新,这些创新增强了Arm 对机密计算的支持。Arm CCA 是 Armv9-A架构的关键组件。 TrustZone 动态内存支持的好处: 更有效地利用宝贵的 DRAM 提高了使用 TrustZone 进行内存密集型操作的灵活性 例如多媒体解码、内容保护和机器学习模型的保护

    1.2K20编辑于 2022-05-13
  • 来自专栏闲余说

    架构设计 9-可扩展架构之分层架构

    导读:《架构设计》系列为极客时间李运华老师《从0开始学架构》课程笔记。本文为第九部分。首先整体介绍可扩展架构的基本思想——“拆”,以及如何拆;随后介绍了面向流程的拆分,即分层架构。 典型架构:SOA & 微服务 面向功能拆分 方案:将系统提供的功能拆分,每个功能作为一部分 优势:对某个功能扩展,或者要增加新的功能时,只需要扩展相关功能即可,无须修改所有的服务 典型架构:微内核架构 分层架构 概念:分层架构是很常见的架构模式,它也叫 N 层架构,通常情况下,N 至少是 2 层。 根据不同的划分维度和对象可分为:C/S 架构&B/S 架构、MVC 架构&MVP 架构、逻辑分层架构。 C/S 架构、B/S 架构 划分的对象是整个业务系统 划分的维度是用户交互,即将和用户交互的部分独立为一层,支撑用户交互的后台作为另外一层 MVC 架构、MVP 架构 划分的对象是单个业务子系统 划分的维度是职责

    91110编辑于 2022-08-19
  • 来自专栏花落的技术专栏

    架构模型DDD 分层架构

    整洁架构 整洁架构又名“洋葱架构”。为什么叫它洋葱架构?看看下面这张图你就明白了。整洁架构的层就像洋葱片一样,它体现了分层的设计思想。 我想这也是微服务架构下 API 网关盛行的主要原因吧。 三种微服务架构模型的对比和分析 这三种架构都考虑了前端需求的变与领域模型的不变。 DDD 分层架构、整洁架构、六边形架构都是以领域模型为核心,实行分层架构,内部核心业务逻辑与外部应用、资源隔离并解耦。请务必记好这个设计思想,今后会有大用处。 项目级微服务 项目级微服务的内部遵循分层架构模型就可以了。领域模型的核心逻辑在领域层实现,服务的组合和编排在应用层实现,通过 API 网关为前台应用提供服务,实现前后端分离。 BFF 微服务与其它微服务存在较大的差异,就是它没有领域模型,因此这个微服务内也不会有领域层。

    68730发布于 2021-11-23
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记2:一文看清Transformer大家族的三股势力

    encoder、decoder既可以单独使用,又可以再一起使用,因此,基于Transformer的模型可以分为三大类: Encoder-only Decoder-only Encoder-Decoder 不同的架构,不同的预训练方式,不同的特长 对于Encoder-only的模型,预训练任务通常是“破坏一个句子,然后让模型去预测或填补”。 对于Decoder-only模型,预训练任务通常是Next word prediction,这种方式又被称为Causal language modeling。 而Seq2seq架构,由于包含了encoder和decoder,所以预训练的目标通常是融合了各自的目标,但通常还会设计一些更加复杂的目标,比如对于T5模型,会把一句话中一片区域的词都mask掉,然后让模型去预测 seq2seq架构模型,就适合做翻译、对话等需要根据给定输入来生成输出的任务,这跟decoder-only模型还是有很大差别的。

    4.5K30发布于 2021-10-08
  • 来自专栏IT从业者张某某

    大语言模型-2.23-主流模型架构与新型架构

    transformer架构 2.2 主流模型架构 三种主流架构 在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了如下三种主流架构。 以 BERT 为代表的编码器(Encoder-only)架构 以 GPT 为代表的解码器(Decoder-only架构 以 T5 为代表的编码器-解码器(Encoder-decoder)架构 大规模预训练语言模型 随着 GPT 系列模型的成功发展,当前自然语言处理领域走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。 混合专家架构 (Mixture-of-Experts, MoE) 大语言模型能够通过扩展参数规模实现性能的提升。然而, 随着模型参数规模的扩大,计算成本也随之增加。 为了解决这个问题,研究人员致力于新型模型架构的设计。

    81310编辑于 2025-03-24
  • 来自专栏DeepHub IMBA

    LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

    这类模型能够学习到数据的分布,并能创造出符合这一分布的新实例,如新的句子或文档。 如GPT系列,通常是decoder-only模型。 这两种架构在设计和应用上有所不同: BERT (Encoder-only):BERT利用双向Transformer编码器,这意味着它在处理文本时可以同时考虑前面和后面的上下文。 在论文中对encoder-only和decoder-only模型的特点进行了讨论,特别是在解释为什么将decoder-only的大型语言模型(LLM)转换为有效的文本编码器时。 方法详解 论文中描述的LLM2Vec方法在代码层面主要涉及以下几个关键的修改,以将decoder-only模型转换为能够生成丰富文本编码的模型: 启用双向注意力:通常,decoder-only模型使用的是单向 论文的作者还提供了一个脚本: experiments/run_mntp.py 它目前支持Llama和Mistral架构模型,所以我们直接可以拿来使用 git clone https://github.com

    4.2K10编辑于 2024-05-10
  • 来自专栏时空探索之旅

    【重制版】AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    ,Transformer,LTSM(大时间序列语言模型),统一时间序列数据集(UTSD) TL, DR: 提出了一种新的decoder-only时间序列分析基础模型——Timer,为大时间序列模型(LTSM 同时,论文还分析了模型的可扩展性,包括模型大小和数据规模对性能的影响,以及不同架构对LTSMs的适用性。 每个变量序列表示将按照 9:1 的比例分为训练和验证部分进行预训练。应用训练分割的统计数据来标准化整个系列。然后,标准化时间序列以及相应的时间戳被合并到单变量序列池中。 部分实验结果说明为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 异常检测 异常检测完整结果 模型扩展性 Timer在不同大小预训练数据集的结果 encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下

    68410编辑于 2024-11-19
  • 【多模态大模型面经】 Transformer 专题面经

    ,我们还需要知道为什么是Encoder-Decoder这样子的架构模式,在现在的主流LLM中,也依然存在着不少Decoder-Only架构,因此面试官还可能问: 2. 为什么有 Encoder-Decoder 和 Decoder-Only 两种不同的架构?它们各自适合什么场景? Decoder-Only 架构:适合语言建模、文本生成和自回归任务。 因此,在纯生成任务中,使用 Decoder-Only 架构是可行且高效的,因为模型只需要预测下一个 token,不需要显式处理输入-输出对齐。 主流 LLM 和多模态大模型架构对比表模型 架构类型 输入类型 输出类型 典型应用 GPT 系列 Decoder-Only

    86220编辑于 2025-11-16
  • 来自专栏JavaEdge

    Tomcat 架构模型

    Tomcat 无需任何三方框架,即可实现业务需要(必须有线程池)的运行 servlet 的容器,其线程模型并非不如 Netty!只是使用场景不同而已!

    36420发布于 2021-02-23
  • 来自专栏微服务生态

    SEDA架构模型

    一、传统并发模型的缺点 基于线程的并发 ? 特点:每任务一线程直线式的编程使用资源昂高,context切换代价高,竞争锁昂贵太多线程可能导致吞吐量下降,响应时间暴涨。 基于事件的并发模型 ? 特点:单线程处理事件每个并发流实现为一个有限状态机应用直接控制并发负载增加的时候,吞吐量饱和响应时间线性增长 二、SEDA架构 ? 三、小结 SEDA主要还是为了解决传统并发模型的缺点,通过将服务器的处理划分各个Stage,利用queue连接起来形成一个pipeline的处理链,并且在Stage中利用控制器进行资源的调控。 简单来说,我看中的是服务器模型的清晰划分以及反应控制。 因在阅读的过程中感觉非常好,所以转载该文章,转自庄周蝶梦

    1.5K30发布于 2018-08-22
  • 来自专栏时空探索之旅

    AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    ,Transformer,LTSM(大时间序列语言模型),统一时间序列数据集(UTSD) TL, DR: 提出了一种新的decoder-only时间序列分析基础模型——Timer,为大时间序列模型(LTSM 同时,论文还分析了模型的可扩展性,包括模型大小和数据规模对性能的影响,以及不同架构对LTSMs的适用性。 每个变量序列表示将按照 9:1 的比例分为训练和验证部分进行预训练。应用训练分割的统计数据来标准化整个系列。然后,标准化时间序列以及相应的时间戳被合并到单变量序列池中。 观察结果部分说明了为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 异常检测 异常检测完整结果 模型扩展性 img encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下,PEMS和ETT子集的预测结果

    1.1K10编辑于 2024-11-19
  • 来自专栏又见苍岚

    DE-9IM 空间关系模型

    DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,直接翻译为 维度扩展的 9 个相交模型,本文记录相关内容。 简介 DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,DE-9IM 模型是用于描述两个 二维几何对象(点、线、面) 之间的空间关系的一种模型 维度扩展九交模型(DE-9IM)是一种拓扑模型和标准,用于描述两个区域(二维中的两个几何图形,R2)的空间关系,在几何学、点集拓扑、地理空间拓扑、以及与计算机空间分析相关的领域。 空间关系 模型主要要描述的就是二维平面下的两个几何对象之间的空间关系。 DE-9IM 模型 DE-9IM 模型把几何对象分为 内部、边界、外部 三个部分,两个几何对象这三个部分两两之间的关系,就可以组合为一个3X3大小(就是 9 个值)的矩阵,这9个值的组合,就表示两个几何对象的空间关系

    89810编辑于 2024-07-04
领券