搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏人工智能
一文搞懂Encoder-only架构
什么是Encoder-only架构？为什么BERT只需要"读懂"而不需要"生成"？一、简介Encoder-only架构是一种只包含编码器（Encoder）组件的神经网络结构，它专注于理解输入文本的深层语义表示，而不具备生成新文本的能力。这就是Encoder-only架构的核心思想：专业化地做好"理解"这一件事。二、为什么需要专门的"理解"模型？架构专门针对第一类需求进行了优化。五、Encoder-only的局限性虽然Encoder-only架构在理解任务上表现出色，但它也有明显的局限：无法生成文本：只能处理输入，不能创造输出固定输入长度：通常有最大序列长度限制（如512个token
24010编辑于 2026-03-05
来自专栏AI智能体从入门到实践
构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析
一、前言在大模型蓬勃发展的今天，我们天天被动输入，一度对这个名字都耳熟能详，但对于主流架构可能还没有接触的很深，大模型的Encoder-only与Decoder-only两大架构犹如两条截然不同的技术路径二、Encoder-only 架构1. 代表模型BERT 是 Encoder-only 架构最著名的代表，它的出现彻底改变了自然语言处理领域，Encoder-only模型的预训练目标与生成式模型有本质不同，其核心是深度理解而非生成。核心架构Encoder-only模型的核心是Transformer的编码器部分。 Encoder-only架构能同时利用所有上下文信息，生成高质量的“上下文化词向量”。
50821编辑于 2026-01-17
来自专栏AI前沿技术
以GPT为代表的Decoder-Only架构凭啥C位出道？
大模型架构可以分为三类 Decoder-Only，Encoder-Only和Encoder-Decoder。不同架构对应不同的训练任务，并在不同的场景任务上达到SOTA效果。本文主要围绕三种架构介绍： 1）Valina Transformer中编码器和解码器核心机制和差异点。 2）结合三种架构中典型的代表模型GPT，Bert，GLM，介绍架构定义和优势。 2，Encoder-Only 架构 2.1，自编码定义 Encoder-Only架构主要是自编码模型（Auto-encoder model），其采用句子重建的任务进行预训练，即预先通过某种方式破坏句子，相对于encoder-only模型中的双向attention，其容易退化成低秩状态，而因果矩阵为下三角满秩，建模状态更强。相同参数量的训练效率上，Decoder-Only > Encoder-Only > Encoder-Decoder。
72610编辑于 2026-01-13
来自专栏时空探索之旅
AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer
典型的基于Transformer的预测器架构主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验： encoder-only的Transformer在不饱和场景（1%Traget-None 然而，经过预训练后，Timer作为encoder-only的Transformer比encoder-only的预训练的模型表现出更好的泛化，从而提高了大多数下游场景的性能。观察结果部分说明了为什么encoder-only结构在主流时间序列预测领域的流行；即encoder-only模型更适合于小基准，而decoder-only架构具有显著的泛化能力和模型能力，是更适合开发LTSM 灵活序列长度（Flexible Sequence Length）：可变上下文长度上的性能encoder-only架构提供了额外的灵活性，以适应一系列不同长度的结构。
1.1K10编辑于 2024-11-19
来自专栏时空探索之旅
【重制版】AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer
典型的基于Transformer的预测器架构主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验： encoder-only的Transformer在不饱和场景（1%Traget-None 部分实验结果说明为什么encoder-only结构在主流时间序列预测领域的流行；即encoder-only模型更适合于小基准，而decoder-only架构具有显著的泛化能力和模型能力，是更适合开发LTSM 灵活序列长度（Flexible Sequence Length）：可变上下文长度上的性能encoder-only架构提供了额外的灵活性，以适应一系列不同长度的结构。异常检测异常检测完整结果模型扩展性 Timer在不同大小预训练数据集的结果 encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下
66910编辑于 2024-11-19
来自专栏DeepHub IMBA
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
最有名的嵌入模型就是BERT是一个典型的encoder-only模型生成模型则设计用来基于训练数据生成新的数据实例。在NLP中，这通常意味着生成文本。这两种架构在设计和应用上有所不同： BERT (Encoder-only)：BERT利用双向Transformer编码器，这意味着它在处理文本时可以同时考虑前面和后面的上下文。与Encoder-only模型的对比：论文比较了使用LLM2Vec转换的decoder-only模型与传统的encoder-only模型（如BERT）。其实我们可以将这篇论文的重点简单的理解为，如何将一个decoder-only的模型快速并且无损的转换成一个encoder-only模型。论文的作者还提供了一个脚本: experiments/run_mntp.py 它目前支持Llama和Mistral架构的模型，所以我们直接可以拿来使用 git clone https://github.com
4.2K10编辑于 2024-05-10
来自专栏SimpleAI
Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力
encoder、decoder既可以单独使用，又可以再一起使用，因此，基于Transformer的模型可以分为三大类： Encoder-only Decoder-only Encoder-Decoder 不同的架构，不同的预训练方式，不同的特长对于Encoder-only的模型，预训练任务通常是“破坏一个句子，然后让模型去预测或填补”。而Seq2seq架构，由于包含了encoder和decoder，所以预训练的目标通常是融合了各自的目标，但通常还会设计一些更加复杂的目标，比如对于T5模型，会把一句话中一片区域的词都mask掉，然后让模型去预测 seq2seq架构的模型，就适合做翻译、对话等需要根据给定输入来生成输出的任务，这跟decoder-only的模型还是有很大差别的。总结表如下：类型架构 Transformer组件 Examples Tasks BERT-like auto-encoding models Encoder ALBERT, BERT, DistilBERT
4.5K30发布于 2021-10-08
来自专栏openclaw系列
Transformer 架构：重塑序列建模的基石
这一架构不仅实现了训练速度的数量级提升，更成为了随后几年大语言模型（LLM）爆发的技术底座（如 BERT, GPT 系列, LLaMA 等）。 2. 宏观架构：Encoder-Decoder 结构原始 Transformer 采用经典的 Encoder-Decoder 架构，主要用于机器翻译任务。注：现代大模型通常只使用其中一部分。例如，BERT 是 Encoder-only，GPT 系列是 Decoder-only。 4. 结语：大模型时代的引擎 Transformer 不仅仅是一个模型架构，它已经成为人工智能领域的新汇编语言。 Encoder-only 变体（如 BERT）统治了理解类任务。
24820编辑于 2026-03-14
来自专栏计算机视觉
Transformer 架构—Encoder-Decoder
尽管现在有数千种不同的 Transformer 模型，但大多数属于以下三种类型之一：（1）Encoder-only 这些模型将文本输入序列转换为丰富的数字表示，非常适合文本分类或命名实体识别等任务。实际上，decoder-only 架构和 encoder-only 架构的应用程序之间的区别有点模糊。随着时间的推移，三种主要架构都经历了自己的演变。上图这个家谱只是突出显示了一些架构里程碑。一、Encoder 家族第一个基于 Transformer 架构的 encoder-only 模型是 BERT。 encoder-only 模型仍然主导着 NLU（Natural Language Understanding）任务（例如文本分类、命名实体识别和问题解答）的研究和行业。
2.3K10编辑于 2024-03-19
来自专栏Python进阶之路
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
首先概述几种主要的架构： Encoder-only：以谷歌的 BERT 为代表。 Encoder-Decoder：以谷歌的 T5、Meta 的 BART 为代表。
50400编辑于 2024-05-25
来自专栏圆圆的算法笔记
五花八门的多模态模型如何选择？
模型结构：模型结构方面主要包括Encoder-only和Encoder-Decoder两种类型。一般比较常见的是Encoder-only结构。实验3：Encoder-only和Encoder-Decoder对比。从上表结果来看，Encoder-only模型的效果更好。
1.2K10编辑于 2022-09-22
来自专栏量化投资与机器学习
基于『大语言模型』和『新闻数据』的股票预测研究
具体介绍下图为使用大模型基于新闻数据进行股票收益预测的流程：我们知道大语言模型大部分是基于Transformer结构，其中又分为encoder-only（仅使用编码器部分），decoder-only 本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。 Encoder-Only LLMs（编码器LLMs）：这类模型主要关注于学习输入文本的上下文嵌入（contextual embeddings）。 4、对于encoder-only LLMs，这种方法与预训练阶段的掩码语言建模任务一致，可能有助于更有效地总结序列级特征。首先，第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。
1.2K10编辑于 2024-08-01
来自专栏一臻数据
Data+AI时代下，如何权衡俩者之间的关系？
以下是关于单向编码与双向编码之我的诡辩： 1. bert、Roberta、distilbert与Albert这种模型采⽤的是encoder-only架构，仅包含transformer的编码器，采⽤的是双向编码从这些⽅⾯来看，encoder-only这种双向编码可以⽣成⾼质量的embeddings，⽤于各种下游任务。 2. 单向编码，采⽤decoder-only架构，仅包含transformer的解码部分。六、关于⼤模型的深度思考既然刚刚提到了encoder-decoder、encoder-only、decoder-only架构，哪种架构更适合作为⼤模型的基础架构？ 1. openai已验证decoder架构的有效性，并积累了丰富的实践经验和优化策略。重新探索其他架构如PrefixLM的路径，不仅需要投⼊⼤量的研发资源，还可能⾯临未知的⻛险和挑战。泛化能⼒泛化能⼒、few-shot与⽣成类架构更适合：⽣成类架构如decoder在泛化能⼒和few-shot学习⽅⾯表现出⾊。其能够灵活适应新任务，并在少量样本下快速学习并⽣成⾼质量⽂本。
27910编辑于 2025-01-13
来自专栏wayn的程序开发
爆了，又爆了！DeepSeek大模型基础教程发布
第 1 章：语言模型基础第一章从语言模型的基础知识讲起，带你了解从最早的统计方法，到 RNN 时代，再到现在大火的 Transformer 架构。比如你知道为什么现在的大模型都离不开 Transformer 架构吗？看完这章，你就明白了。第 2 章：大语言模型这章可以说是全书最重要的内容之一。然后深入剖析了三大主流架构： Encoder-only：以 BERT 为代表，擅长理解任务 Encoder-Decoder：以 T5 为代表，适合序列转换任务 Decoder-only：以 GPT 为代表，善于生成任务每种架构都有详细的技术原理讲解，包括预训练目标、模型结构特点等。特别有意思的是，书中还介绍了一些非 Transformer 的创新架构，让我们看到了更多的可能性。第 3 章：Prompt 工程第三章讲解 Prompt 工程，也就是怎么跟大模型"说人话"。
47110编辑于 2025-02-12
来自专栏《Cloud Studio》
CloudStudio 公开课 —— 大模型基础
基于统计方法的语言模型1.2 基于RNN的语言模型1.3 基于Transformer的语言模型1.4 语言模型的采样方法1.5 语言模型的评测第2章：大语言模型2.1 大数据+大模型→新智能2.2 大语言模型架构概览 2.3 基于Encoder-only架构的大语言模型2.4 基于Encoder-Decoder架构的大语言模型2.5 基于Decoder-only架构的大语言模型2.6 非Transformer架构第3 模型编辑5.1 模型编辑简介5.2 模型编辑经典方法5.3 附加参数法：T-Patcher5.4 定位编辑法：ROME5.5 模型编辑应用第6章：检索增强生成6.1 检索增强生成简介6.2 检索增强生成架构
43210编辑于 2025-03-11
来自专栏时空探索之旅
NeurIPS 2025 | 时空基础模型新范式FactoST：从"联合苦训"到"先通后专"
v2版本彻底升级为 Encoder-Only 架构，实现100%预训练权重全转移与任意长度预测，并引入概率分位数预测量化不确定性。预训练与目标域的分布差异，并用记忆库（CMR）防止灾难性遗忘从 v1 到 v2：从"能用"到"好用"的质变在NeurIPS 2025（v1）的基础上，团队于Arxiv 2026推出FactoST-v2，实现了架构层面的关键跃迁：维度 FactoST v1 (NeurIPS) FactoST v2 (Arxiv) 升级意义架构 Encoder-Decoder（固定长度） Encoder-Only（任意长度）支持可变输入输出架构通用性验证将STA适配器"即插即用"到PatchTST（纯时间模型）上，显著提升其空间建模能力，证明该适配器与具体骨干网络无关，具有广泛适用性。 4.
19610编辑于 2026-03-10
来自专栏人工智能前沿讲习
【综述专栏】最新视觉-语言预训练综述
模型架构：我们从两个不同的角度介绍VLP模型的架构：从多模态融合的角度分为单流与双流，从整体架构设计的角度分为Encoder-only与Encoder-decoder （参见第4节）； 3. 更多细节描述详见论文 Section 2 04 模型结构在本节中，我们从两个不同的角度介绍 VLP 模型的架构：（1）从多模态融合的角度分为单流与双流，以及（2）从整体架构设计来看分为only-encoder 双流架构是指文本和视觉特征没有连接在一起，而是独立发送到两个不同的Transformer块，如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder 许多 VLP 模型采用仅编码器架构，其中跨模态表示直接馈入输出层以生成最终输出。相比之下，其他 VLP 模型提倡使用转换器编码器-解码器架构，其中跨模态表示首先馈入解码器，然后馈入输出层。
81911编辑于 2022-04-11
什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构？
今天，我就来系统梳理六大核心架构——业务架构、数据架构、应用架构、技术架构、产品架构和项目架构。帮你理解数字化建设的底层逻辑，来有效地参与项目和提升协作效率。想象一下，业务架构是公司的部门职责说明书，数据架构是公司的档案管理系统，那么，应用架构就是决定需要开发多少个具体的软件应用或微服务，来让各个部门能够协同工作。这些问题，都属于技术架构的范畴。技术架构关注所有非功能性需求与基础设施：计算资源：选择物理服务器、虚拟机还是容器？是否采用无服务器架构？合理的项目架构能最大限度地减少团队间的沟通摩擦，确保技术愿景被高效、准确地执行。总结回顾这六大架构，你会发现它们构成了一个严谨的决策链条：业务架构定义战略与价值。数据架构把业务实体转化为核心资产。应用架构将业务能力组织为软件模块。技术架构为软件模块提供运行时环境。产品架构将软件能力包装为用户可感知的价值。项目架构组织人类智慧完成从零到一的构建。它们彼此约束，又相互滋养。
90710编辑于 2025-10-30
来自专栏架构之家
应用架构、技术架构、安全架构、部署架构
在日常软件项目开发与实施中，经常会涉及到各种架构图，如应用架构、技术架构、安全架构、部署架构。今天特意将这些架构图整理如下，提供给大家进行学习参考。一、应用架构二、技术架构三、安全架构四、部署架构五、有需要的同学，可以访问下面地址进行克隆，学习更多内容请访问： https://www.processon.com/u/5f633168e0b34d080d54c128
6.6K32编辑于 2022-12-28
来自专栏深圳架构师同盟
什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构？
因此这篇文章刚好回答下在知乎看到的一个问题，即：什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构？对于该问题我从企业架构中的4A架构来简单回答下该问题。企业架构作为指导企业数字化转型的重要方法论，涵盖了多个层次和维度的架构类型。从传统的4A架构（业务架构、数据架构、应用架构、技术架构）到现代的产品架构、项目架构，每种架构都有其独特的定位和作用。企业架构4A体系的核心框架 4A架构关系图我们常说的4A架构就是业务架构、数据架构、应用架构和技术架构，其实去理解4A架构的集成核心，你仍然要去参考企业架构这本书里面谈到的企业架构元模型。业务架构的核心要素与设计方法业务架构转换逻辑业务架构是企业架构的起点和基础。产品架构与项目架构的现代扩展企业架构融合框架在现代企业架构体系中，除了传统的4A架构外，产品架构和项目架构也成为重要的组成部分。
61910编辑于 2025-11-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

一文搞懂Encoder-only架构

构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析

以GPT为代表的Decoder-Only架构凭啥C位出道？

AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

【重制版】AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

Transformer 架构：重塑序列建模的基石

Transformer 架构—Encoder-Decoder

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

五花八门的多模态模型如何选择？

基于『大语言模型』和『新闻数据』的股票预测研究

Data+AI时代下，如何权衡俩者之间的关系？

爆了，又爆了！DeepSeek大模型基础教程发布

CloudStudio 公开课 —— 大模型基础

NeurIPS 2025 | 时空基础模型新范式FactoST：从"联合苦训"到"先通后专"

【综述专栏】最新视觉-语言预训练综述

什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构？

应用架构、技术架构、安全架构、部署架构

什么是技术架构、数据架构、业务架构、应用架构、产品架构和项目架构？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐