首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能

    一文搞懂Encoder-only架构

    什么是Encoder-only架构?为什么BERT只需要"读懂"而不需要"生成"? 一、简介Encoder-only架构是一种只包含编码器(Encoder)组件的神经网络结构,它专注于理解输入文本的深层语义表示,而不具备生成新文本的能力。 这就是Encoder-only架构的核心思想:专业化地做好"理解"这一件事。二、为什么需要专门的"理解"模型? 架构专门针对第一类需求进行了优化。 五、Encoder-only的局限性虽然Encoder-only架构在理解任务上表现出色,但它也有明显的局限:无法生成文本:只能处理输入,不能创造输出固定输入长度:通常有最大序列长度限制(如512个token

    24010编辑于 2026-03-05
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:Encoder-only与Decoder-only模型架构:基于本地小模型的实践解析

    ​一、前言 在大模型蓬勃发展的今天,我们天天被动输入,一度对这个名字都耳熟能详,但对于主流架构可能还没有接触的很深,大模型的Encoder-only与Decoder-only两大架构犹如两条截然不同的技术路径 二、Encoder-only 架构1. 代表模型BERT 是 Encoder-only 架构最著名的代表,它的出现彻底改变了自然语言处理领域,Encoder-only模型的预训练目标与生成式模型有本质不同,其核心是深度理解而非生成。 核心架构Encoder-only模型的核心是Transformer的编码器部分。 Encoder-only架构能同时利用所有上下文信息,生成高质量的“上下文化词向量”。

    50821编辑于 2026-01-17
  • 来自专栏AI前沿技术

    以GPT为代表的Decoder-Only架构凭啥C位出道?

    大模型架构可以分为三类 Decoder-Only,Encoder-Only和Encoder-Decoder。 不同架构对应不同的训练任务,并在不同的场景任务上达到SOTA效果。 本文主要围绕三种架构介绍: 1)Valina Transformer中编码器和解码器核心机制和差异点。 2)结合三种架构中典型的代表模型GPT,Bert,GLM,介绍架构定义和优势。 2,Encoder-Only 架构 2.1,自编码定义 Encoder-Only架构主要是自编码模型(Auto-encoder model),其采用句子重建的任务进行预训练,即预先通过某种方式破坏句子, 相对于encoder-only模型中的双向attention,其容易退化成低秩状态,而因果矩阵为下三角满秩,建模状态更强。 相同参数量的训练效率上,Decoder-Only > Encoder-Only > Encoder-Decoder。

    72610编辑于 2026-01-13
  • 来自专栏时空探索之旅

    AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    典型的基于Transformer的预测器架构 主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验: encoder-only的Transformer在不饱和场景(1%Traget-None 然而,经过预训练后,Timer作为encoder-only的Transformer比encoder-only的预训练的模型表现出更好的泛化,从而提高了大多数下游场景的性能。 观察结果部分说明了为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 灵活序列长度(Flexible Sequence Length): 可变上下文长度上的性能encoder-only架构提供了额外的灵活性,以适应一系列不同长度的结构。

    1.1K10编辑于 2024-11-19
  • 来自专栏时空探索之旅

    【重制版】AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    典型的基于Transformer的预测器架构 主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验: encoder-only的Transformer在不饱和场景(1%Traget-None 部分实验结果说明为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 灵活序列长度(Flexible Sequence Length): 可变上下文长度上的性能encoder-only架构提供了额外的灵活性,以适应一系列不同长度的结构。 异常检测 异常检测完整结果 模型扩展性 Timer在不同大小预训练数据集的结果 encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下

    66910编辑于 2024-11-19
  • 来自专栏DeepHub IMBA

    LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

    最有名的嵌入模型就是BERT是一个典型的encoder-only模型 生成模型则设计用来基于训练数据生成新的数据实例。在NLP中,这通常意味着生成文本。 这两种架构在设计和应用上有所不同: BERT (Encoder-only):BERT利用双向Transformer编码器,这意味着它在处理文本时可以同时考虑前面和后面的上下文。 与Encoder-only模型的对比:论文比较了使用LLM2Vec转换的decoder-only模型与传统的encoder-only模型(如BERT)。 其实我们可以将这篇论文的重点简单的理解为,如何将一个decoder-only的模型快速并且无损的转换成一个encoder-only模型。 论文的作者还提供了一个脚本: experiments/run_mntp.py 它目前支持Llama和Mistral架构的模型,所以我们直接可以拿来使用 git clone https://github.com

    4.2K10编辑于 2024-05-10
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记2:一文看清Transformer大家族的三股势力

    encoder、decoder既可以单独使用,又可以再一起使用,因此,基于Transformer的模型可以分为三大类: Encoder-only Decoder-only Encoder-Decoder 不同的架构,不同的预训练方式,不同的特长 对于Encoder-only的模型,预训练任务通常是“破坏一个句子,然后让模型去预测或填补”。 而Seq2seq架构,由于包含了encoder和decoder,所以预训练的目标通常是融合了各自的目标,但通常还会设计一些更加复杂的目标,比如对于T5模型,会把一句话中一片区域的词都mask掉,然后让模型去预测 seq2seq架构的模型,就适合做翻译、对话等需要根据给定输入来生成输出的任务,这跟decoder-only的模型还是有很大差别的。 总结表如下: 类型 架构 Transformer组件 Examples Tasks BERT-like auto-encoding models Encoder ALBERT, BERT, DistilBERT

    4.5K30发布于 2021-10-08
  • 来自专栏openclaw系列

    Transformer 架构:重塑序列建模的基石

    这一架构不仅实现了训练速度的数量级提升,更成为了随后几年大语言模型(LLM)爆发的技术底座(如 BERT, GPT 系列, LLaMA 等)。 2. 宏观架构:Encoder-Decoder 结构 原始 Transformer 采用经典的 Encoder-Decoder 架构,主要用于机器翻译任务。 注:现代大模型通常只使用其中一部分。 例如,BERT 是 Encoder-only,GPT 系列是 Decoder-only。 4. 结语:大模型时代的引擎 Transformer 不仅仅是一个模型架构,它已经成为人工智能领域的新汇编语言。 Encoder-only 变体(如 BERT)统治了理解类任务。

    24820编辑于 2026-03-14
  • 来自专栏计算机视觉

    Transformer 架构—Encoder-Decoder

    尽管现在有数千种不同的 Transformer 模型,但大多数属于以下三种类型之一: (1)Encoder-only 这些模型将文本输入序列转换为丰富的数字表示,非常适合文本分类或命名实体识别等任务。 实际上,decoder-only 架构encoder-only 架构的应用程序之间的区别有点模糊。 随着时间的推移,三种主要架构都经历了自己的演变。 上图这个家谱只是突出显示了一些架构里程碑。 一、Encoder 家族 第一个基于 Transformer 架构encoder-only 模型是 BERT。 encoder-only 模型仍然主导着 NLU(Natural Language Understanding)任务(例如文本分类、命名实体识别和问题解答)的研究和行业。

    2.3K10编辑于 2024-03-19
  • 来自专栏Python进阶之路

    详解为什么现在的 LLMs 大都是 Decoder-only 的架构

    首先概述几种主要的架构Encoder-only:以谷歌的 BERT 为代表。 Encoder-Decoder:以谷歌的 T5、Meta 的 BART 为代表。

    50400编辑于 2024-05-25
  • 来自专栏圆圆的算法笔记

    五花八门的多模态模型如何选择?

    模型结构:模型结构方面主要包括Encoder-only和Encoder-Decoder两种类型。一般比较常见的是Encoder-only结构。 实验3:Encoder-only和Encoder-Decoder对比。从上表结果来看,Encoder-only模型的效果更好。

    1.2K10编辑于 2022-09-22
  • 来自专栏量化投资与机器学习

    基于『大语言模型』和『新闻数据』的股票预测研究

    具体介绍 下图为使用大模型基于新闻数据进行股票收益预测的流程: 我们知道大语言模型大部分是基于Transformer结构,其中又分为encoder-only(仅使用编码器部分),decoder-only 本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。 Encoder-Only LLMs(编码器LLMs): 这类模型主要关注于学习输入文本的上下文嵌入(contextual embeddings)。 4、对于encoder-only LLMs,这种方法与预训练阶段的掩码语言建模任务一致,可能有助于更有效地总结序列级特征。 首先,第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。

    1.2K10编辑于 2024-08-01
  • 来自专栏一臻数据

    Data+AI时代下,如何权衡俩者之间的关系?

    以下是关于单向编码与双向编码之我的诡辩: 1. bert、Roberta、distilbert与Albert这种模型采⽤的是encoder-only架构,仅包含transformer的编码器,采⽤的是双向编码 从这些⽅⾯来看,encoder-only这种双向编码可以⽣成⾼质量的embeddings,⽤于各种下游任务。 2. 单向编码,采⽤decoder-only架构,仅包含transformer的解码部分。 六、关于⼤模型的深度思考 既然刚刚提到了encoder-decoder、encoder-only、decoder-only架构,哪种架构更适合作为⼤模型的基础架构? 1. openai已验证decoder架构的有效性,并积累了丰富的实践经验和优化策略。 重新探索其他架构如PrefixLM的路径,不仅需要投⼊⼤量的研发资源,还可能⾯临未知的⻛险和挑战。 泛化能⼒ 泛化能⼒、few-shot与⽣成类架构更适合:⽣成类架构如decoder在泛化能⼒和few-shot学习⽅⾯表现出⾊。 其能够灵活适应新任务,并在少量样本下快速学习并⽣成⾼质量⽂本。

    27910编辑于 2025-01-13
  • 来自专栏wayn的程序开发

    爆了,又爆了!DeepSeek大模型基础教程发布

    第 1 章:语言模型基础 第一章从语言模型的基础知识讲起,带你了解从最早的统计方法,到 RNN 时代,再到现在大火的 Transformer 架构。 比如你知道为什么现在的大模型都离不开 Transformer 架构吗?看完这章,你就明白了。 第 2 章:大语言模型 这章可以说是全书最重要的内容之一。 然后深入剖析了三大主流架构Encoder-only:以 BERT 为代表,擅长理解任务 Encoder-Decoder:以 T5 为代表,适合序列转换任务 Decoder-only:以 GPT 为代表 ,善于生成任务 每种架构都有详细的技术原理讲解,包括预训练目标、模型结构特点等。 特别有意思的是,书中还介绍了一些非 Transformer 的创新架构,让我们看到了更多的可能性。 第 3 章:Prompt 工程 第三章讲解 Prompt 工程,也就是怎么跟大模型"说人话"。

    47110编辑于 2025-02-12
  • 来自专栏《Cloud Studio》

    CloudStudio 公开课 —— 大模型基础

    基于统计方法的语言模型1.2 基于RNN的语言模型1.3 基于Transformer的语言模型1.4 语言模型的采样方法1.5 语言模型的评测第2章:大语言模型2.1 大数据+大模型→新智能2.2 大语言模型架构概览 2.3 基于Encoder-only架构的大语言模型2.4 基于Encoder-Decoder架构的大语言模型2.5 基于Decoder-only架构的大语言模型2.6 非Transformer架构第3 模型编辑5.1 模型编辑简介5.2 模型编辑经典方法5.3 附加参数法:T-Patcher5.4 定位编辑法:ROME5.5 模型编辑应用第6章:检索增强生成6.1 检索增强生成简介6.2 检索增强生成架构

    43210编辑于 2025-03-11
  • 来自专栏时空探索之旅

    NeurIPS 2025 | 时空基础模型新范式FactoST:从"联合苦训"到"先通后专"

    v2版本彻底升级为 Encoder-Only 架构,实现100%预训练权重全转移与任意长度预测,并引入概率分位数预测量化不确定性。 预训练与目标域的分布差异,并用记忆库(CMR)防止灾难性遗忘 从 v1 到 v2:从"能用"到"好用"的质变 在NeurIPS 2025(v1)的基础上,团队于Arxiv 2026推出FactoST-v2,实现了架构层面的关键跃迁 : 维度 FactoST v1 (NeurIPS) FactoST v2 (Arxiv) 升级意义 架构 Encoder-Decoder(固定长度) Encoder-Only(任意长度) 支持可变输入输出 架构通用性验证 将STA适配器"即插即用"到PatchTST(纯时间模型)上,显著提升其空间建模能力,证明该适配器与具体骨干网络无关,具有广泛适用性。 4.

    19610编辑于 2026-03-10
  • 来自专栏人工智能前沿讲习

    【综述专栏】最新视觉-语言预训练综述

    模型架构:我们从两个不同的角度介绍VLP模型的架构:从多模态融合的角度分为单流与双流,从整体架构设计的角度分为Encoder-only与Encoder-decoder (参见第4节); 3. 更多细节描述详见论文 Section 2 04 模型结构 在本节中,我们从两个不同的角度介绍 VLP 模型的架构:(1)从多模态融合的角度分为单流与双流,以及(2)从整体架构设计来看分为only-encoder 双流架构是指文本和视觉特征没有连接在一起,而是独立发送到两个不同的Transformer块,如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder 许多 VLP 模型采用仅编码器架构,其中跨模态表示直接馈入输出层以生成最终输出。 相比之下,其他 VLP 模型提倡使用转换器编码器-解码器架构,其中跨模态表示首先馈入解码器,然后馈入输出层。

    81911编辑于 2022-04-11
  • 什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构

    今天,我就来系统梳理六大核心架构——业务架构、数据架构、应用架构、技术架构、产品架构和项目架构。帮你理解数字化建设的底层逻辑,来有效地参与项目和提升协作效率。 想象一下,业务架构是公司的部门职责说明书,数据架构是公司的档案管理系统,那么,应用架构就是决定需要开发多少个具体的软件应用或微服务,来让各个部门能够协同工作。 这些问题,都属于技术架构的范畴。技术架构关注所有非功能性需求与基础设施:计算资源:选择物理服务器、虚拟机还是容器?是否采用无服务器架构? 合理的项目架构能最大限度地减少团队间的沟通摩擦,确保技术愿景被高效、准确地执行。总结回顾这六大架构,你会发现它们构成了一个严谨的决策链条:业务架构定义战略与价值。数据架构把业务实体转化为核心资产。 应用架构将业务能力组织为软件模块。技术架构为软件模块提供运行时环境。产品架构将软件能力包装为用户可感知的价值。项目架构组织人类智慧完成从零到一的构建。它们彼此约束,又相互滋养。

    90710编辑于 2025-10-30
  • 来自专栏架构之家

    应用架构、技术架构、安全架构、部署架构

    在日常软件项目开发与实施中,经常会涉及到各种架构图,如应用架构、技术架构、安全架构、部署架构。今天特意将这些架构图整理如下,提供给大家进行学习参考。 一、应用架构 二、技术架构 三、安全架构 四、部署架构 五、 有需要的同学,可以访问下面地址进行克隆,学习更多内容请访问: https://www.processon.com/u/5f633168e0b34d080d54c128

    6.6K32编辑于 2022-12-28
  • 来自专栏深圳架构师同盟

    什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构

    因此这篇文章刚好回答下在知乎看到的一个问题,即:什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构? 对于该问题我从企业架构中的4A架构来简单回答下该问题。 企业架构作为指导企业数字化转型的重要方法论,涵盖了多个层次和维度的架构类型。从传统的4A架构(业务架构、数据架构、应用架构、技术架构)到现代的产品架构、项目架构,每种架构都有其独特的定位和作用。 企业架构4A体系的核心框架 4A架构关系图 我们常说的4A架构就是业务架构、数据架构、应用架构和技术架构,其实去理解4A架构的集成核心,你仍然要去参考企业架构这本书里面谈到的企业架构元模型。 业务架构的核心要素与设计方法 业务架构转换逻辑 业务架构是企业架构的起点和基础。 产品架构与项目架构的现代扩展 企业架构融合框架 在现代企业架构体系中,除了传统的4A架构外,产品架构和项目架构也成为重要的组成部分。

    61910编辑于 2025-11-17
领券