搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大模型应用
大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71
二、三种架构的定位1. Decoder-only（仅解码器）架构代表模型：GPT 系列、LLaMA 系列、Qwen 系列等。通俗举例：假设模型隐藏层维度 d=4096，n=1024 时，KV 缓存的存储量约为 1024 × 4096 × 2（K 和 V）= 8,388,608 个参数，约 32MB（单精度浮点数）。模型架构优化：采用 Decoder-only 架构（推理友好，KV 缓存优化空间大），避免 Encoder-Decoder 架构的额外开销。理解大模型发展趋势：大模型的发展始终围绕“提升能力”和“降低算力成本” 两个核心，Decoder-only 架构的流行、MoE 模型的兴起，都是算力优化的结果，理解算力差异可以帮助我们把握大模型的未来发展方向三种大模型架构的算力核心差异主要体现在注意力机制、参数量与计算密度上，整体算力消耗从高到低依次为 Encoder-Decoder、Decoder-only、MoE 架构。
18843编辑于 2026-04-09
来自专栏AI智能体从入门到实践
构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析
一、前言在大模型蓬勃发展的今天，我们天天被动输入，一度对这个名字都耳熟能详，但对于主流架构可能还没有接触的很深，大模型的Encoder-only与Decoder-only两大架构犹如两条截然不同的技术路径内容创作、智能客服、代码生成等场景需要模型具备持续创作能力，这时候Decoder-only架构展现出独特价值。它就像不知疲倦的创作者，能够根据简单提示生成丰富内容。核心架构Encoder-only模型的核心是Transformer的编码器部分。 Decoder-only 模型就是这样一位成语接龙高手。代表模型GPT 是 Decoder-only 架构最著名的代表，它的名字就揭示了其本质：生成式预训练Transformer。GPT 的训练目标非常简单直接：预测下一个词。
52832编辑于 2026-01-17
来自专栏Python进阶之路
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
首先概述几种主要的架构： Encoder-only：以谷歌的 BERT 为代表。 Encoder-Decoder：以谷歌的 T5、Meta 的 BART 为代表。基于自回归空白填充的通用语言模型：清华大学的 GLM。 XLNet：XLNet 在那时是一种通用的自回归预训练方法。通过最大化所有可能的因式分解排列的对数似然，学习双向语境信息；用自回归本身的特点克服 BERT 的缺点；此外，XLNet 还融合了那时最优的自回归模型 Transformer-XL 的思路。前缀语言模型（Prefix Language Model，PrefixLM）结合掩码语言模型和因果语言模型的优点，同时避免它们的不足。
50800编辑于 2024-05-25
来自专栏AI前沿技术
以GPT为代表的Decoder-Only架构凭啥C位出道？
大模型架构可以分为三类 Decoder-Only，Encoder-Only和Encoder-Decoder。不同架构对应不同的训练任务，并在不同的场景任务上达到SOTA效果。 3）讨论主流厂商的大模型，采用Decoder-only架构的原因。由于 Encoder 的计算过程可高度并行（无需像 Decoder 那样依赖前序输出逐步生成），这种架构能显著提升推理速度，远快于大型 Decoder-Only 模型。 4，Decoder-Only 架构 4.1，自回归定义自回归（Auto-regressive model）模型采用经典的语言模型任务进行预训练，即给出上文预测下文，其中最经典的模型是GPT（Generative Decoder-only架构加next token predicition 的方式，每个位置所能接触的信息比其他架构少，要预测下一个token难度更高，当模型足够大，数据足够多的时候，Decoder-only
83010编辑于 2026-01-13
来自专栏人工智能
解码器架构：构建智能语言模型的核心设计
在现代自然语言处理领域，Decoder-only（解码器）架构是构建语言模型的重要设计之一。这种架构尤其适合生成任务，例如对话生成、自动摘要、代码补全等。 Decoder-only 架构是基于 Transformer 的一种深度学习模型设计，专注于生成目标序列。它不直接依赖显式的编码器，而是通过自注意力机制处理输入，预测下一个单词或符号。技术实现：理论与代码分析为了让这一架构更加直观，我们通过 Python 和 PyTorch 展示一个简单的 Decoder-only 模型。案例研究：GPT 模型的成功实践GPT（Generative Pre-trained Transformer）是 Decoder-only 架构最著名的应用之一。通过部署 GPT 模型，该平台将用户问题的响应时间缩短了 40%，显著提升了用户体验。这说明 Decoder-only 架构不仅在理论上高效，在实际场景中也具备广泛的适用性。
85210编辑于 2025-01-12
来自专栏机器学习AI算法工程
yolov8 模型架构轻量化，极致降低参数量
首先，模型参数量直接决定了模型的复杂度和存储空间需求。随着深度学习技术的不断发展，模型参数数量急剧增加，导致模型体积庞大，给存储和传输带来了巨大挑战。通过减少模型参数量，可以有效降低模型的体积，从而减小存储空间需求，使模型更容易在嵌入式设备和移动设备上部署。其次，模型参数量对计算资源的需求有显著影响。此外，模型参数量还影响着模型的泛化能力和鲁棒性。过多的参数可能导致模型过拟合，降低其泛化能力；而减少参数量则有助于防止过拟合，提高模型的鲁棒性。本文将从另外一个角度，即模型的结构设计方面，实现参数量的最小，并以YOLOV8为例子，通过模型结构的轻量化设计，在保证模型性能稳定不变的前提下极致的压缩参数量一、设计思路从模型结构看V8主要有两个大的模块构成模型结构轻量化参数对比原yolov8参数：3011043 轻量化后参数：1436977 通过以上模块的替换使得模型参数降低至原来的一半不到，且精度不变，这是通过剪枝、蒸馏都没办到的
4.6K11编辑于 2024-05-29
来自专栏人工智能
什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？
什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？最著名的Decoder-only模型就是GPT系列（GenerativePre-trainedTransformer）。这就是Decoder-only架构的核心思想：专业化地做好"生成"这一件事。二、为什么需要专门的"生成"模型？单向注意力vs双向注意力模型类型注意力方向核心优势典型代表Decoder-only单向（从左到右）自回归生成、避免信息泄露GPTEncoder-only双向完整上下文理解BERTGPT的单向注意力确保了在生成第就像人类社会中的专业分工一样，AI模型也在向着专业化发展。Decoder-only架构证明了，在特定领域做到极致，往往比试图面面俱到更有效。
34110编辑于 2026-03-06
来自专栏DeepHub IMBA
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
这类模型能够学习到数据的分布，并能创造出符合这一分布的新实例，如新的句子或文档。如GPT系列，通常是decoder-only模型。这两种架构在设计和应用上有所不同： BERT (Encoder-only)：BERT利用双向Transformer编码器，这意味着它在处理文本时可以同时考虑前面和后面的上下文。在论文中对encoder-only和decoder-only模型的特点进行了讨论，特别是在解释为什么将decoder-only的大型语言模型（LLM）转换为有效的文本编码器时。方法详解论文中描述的LLM2Vec方法在代码层面主要涉及以下几个关键的修改，以将decoder-only模型转换为能够生成丰富文本编码的模型：启用双向注意力：通常，decoder-only模型使用的是单向论文的作者还提供了一个脚本: experiments/run_mntp.py 它目前支持Llama和Mistral架构的模型，所以我们直接可以拿来使用 git clone https://github.com
4.2K10编辑于 2024-05-10
来自专栏花落的技术专栏
架构模型DDD 分层架构
整洁架构整洁架构又名“洋葱架构”。为什么叫它洋葱架构？看看下面这张图你就明白了。整洁架构的层就像洋葱片一样，它体现了分层的设计思想。我想这也是微服务架构下 API 网关盛行的主要原因吧。三种微服务架构模型的对比和分析这三种架构都考虑了前端需求的变与领域模型的不变。 DDD 分层架构、整洁架构、六边形架构都是以领域模型为核心，实行分层架构，内部核心业务逻辑与外部应用、资源隔离并解耦。请务必记好这个设计思想，今后会有大用处。项目级微服务项目级微服务的内部遵循分层架构模型就可以了。领域模型的核心逻辑在领域层实现，服务的组合和编排在应用层实现，通过 API 网关为前台应用提供服务，实现前后端分离。 BFF 微服务与其它微服务存在较大的差异，就是它没有领域模型，因此这个微服务内也不会有领域层。
68730发布于 2021-11-23
来自专栏SimpleAI
Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力
encoder、decoder既可以单独使用，又可以再一起使用，因此，基于Transformer的模型可以分为三大类： Encoder-only Decoder-only Encoder-Decoder 不同的架构，不同的预训练方式，不同的特长对于Encoder-only的模型，预训练任务通常是“破坏一个句子，然后让模型去预测或填补”。对于Decoder-only的模型，预训练任务通常是Next word prediction，这种方式又被称为Causal language modeling。而Seq2seq架构，由于包含了encoder和decoder，所以预训练的目标通常是融合了各自的目标，但通常还会设计一些更加复杂的目标，比如对于T5模型，会把一句话中一片区域的词都mask掉，然后让模型去预测 seq2seq架构的模型，就适合做翻译、对话等需要根据给定输入来生成输出的任务，这跟decoder-only的模型还是有很大差别的。
4.5K30发布于 2021-10-08
来自专栏Python与算法之美
8，模型的训练
根据问题特点选择适当的估计器estimater模型：分类(SVC,KNN,LR,NaiveBayes,...) 回归(Lasso,ElasticNet,SVR,...) 一，分类模型的训练 ? ? ? ? ? ? ? ? ? 二，回归模型的训练 ? ? ? ? ? ? ? ? 三，聚类模型的训练 KMeans算法的基本思想如下：随机选择K个点作为初始质心 While 簇发生变化或小于最大迭代次数：将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 ? 四，降维模型的训练 PCA主成分分析(Principal Components Analysis)是最常使用的降维算法，其基本思想如下：将原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。 ?
82031发布于 2020-07-17
来自专栏SimpleAI
Google的 Pathways（理想）与 PaLM（现实）
“ Anyway，还是介绍一下：一句话介绍： PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型（但依然是经典结构：a dense, decoder-only, full-attention Attention 等提升计算效率的机制完全无损、可逆的vocabulary：空格保留、OOV切分成UTF8 bytes、数值切分成单个token 只训练一个epoch——防止overfitting ，但是显著高于之前的decoder-only的模型。（尤其是few-shot），说明了传统的模型架构和训练方法依然有很大的提升空间。另一方面，PaLM验证了Pathways训练系统的有效性，为下一代的模型架构研发做了经验积累。
1.1K20编辑于 2022-11-30
来自专栏devops探索
k8s架构
k8s架构 etcd保存了整个集群的状态； apiserver提供了资源操作的唯一入口，并提供认证、授权、访问控制、API注册和发现等机制； controller manager负责维护集群的状态，比如故障检测
45310发布于 2020-07-31
来自专栏linux驱动个人学习
1.ARMv8-A架构
1.ARMv8-A架构基于ARMv8-A架构的处理器最大可以支持到48根地址线，也就是寻址2的48次方的虚拟地址空间，即虚拟地址空间范围为0x0000_0000_0000_0000～0x0000_FFFF_FFFF_FFFF 基于ARMv8-A架构的处理器支持的页面大小可以是4KB、16KB或者64KB。映射的层级可以是3级或者4级（地址范围是不一样的）。
1.4K21编辑于 2023-04-21
来自专栏summerking的专栏
K8s架构
# Kubernetes架构设计一个 Kubernetes 集群包含两种类型的资源: Master 调度整个集群 Nodes 负责运行应用
45120编辑于 2022-09-19
【多模态大模型面经】 Transformer 专题面经
，我们还需要知道为什么是Encoder-Decoder这样子的架构模式，在现在的主流LLM中，也依然存在着不少Decoder-Only的架构，因此面试官还可能问： 2. Decoder-Only 架构：适合语言建模、文本生成和自回归任务。因此，在纯生成任务中，使用 Decoder-Only 架构是可行且高效的，因为模型只需要预测下一个 token，不需要显式处理输入-输出对齐。主流 LLM 和多模态大模型架构对比表模型架构类型输入类型输出类型典型应用 GPT 系列 Decoder-Only 直觉： LayerNorm 让每个 token 的特征分布稳定，不会因为输入尺度或激活偏移而导致模型震荡。面试官可能会问： 8.
86220编辑于 2025-11-16
来自专栏openclaw系列
Transformer 架构：重塑序列建模的基石
这一架构不仅实现了训练速度的数量级提升，更成为了随后几年大语言模型（LLM）爆发的技术底座（如 BERT, GPT 系列, LLaMA 等）。 2. 宏观架构：Encoder-Decoder 结构原始 Transformer 采用经典的 Encoder-Decoder 架构，主要用于机器翻译任务。注：现代大模型通常只使用其中一部分。例如，BERT 是 Encoder-only，GPT 系列是 Decoder-only。 4. 局限性与演进尽管 Transformer 极其成功，但它并非完美： 8. 结语：大模型时代的引擎 Transformer 不仅仅是一个模型架构，它已经成为人工智能领域的新汇编语言。 Decoder-only 变体（如 GPT, LLaMA, Qwen）开启了生成式 AI 和大语言模型的时代。
29420编辑于 2026-03-14
来自专栏IT从业者张某某
大语言模型-2.23-主流模型架构与新型架构
transformer架构 2.2 主流模型架构三种主流架构在预训练语言模型时代，自然语言处理领域广泛采用了预训练 + 微调的范式，并诞生了如下三种主流架构。以 BERT 为代表的编码器（Encoder-only）架构以 GPT 为代表的解码器（Decoder-only）架构以 T5 为代表的编码器-解码器（Encoder-decoder）架构大规模预训练语言模型随着 GPT 系列模型的成功发展，当前自然语言处理领域走向了生成式大语言模型的道路，解码器架构已经成为了目前大语言模型的主流架构。混合专家架构 (Mixture-of-Experts, MoE) 大语言模型能够通过扩展参数规模实现性能的提升。然而，随着模型参数规模的扩大，计算成本也随之增加。为了解决这个问题，研究人员致力于新型模型架构的设计。
81310编辑于 2025-03-24
来自专栏深度学习与python
又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源
, 训了 600 亿 Tokens：（1）BBT-1-0.2B-001：2 亿参数，金融模型，T5 Decoder+Encoder 架构（2）BBT-1-0.2B-002: 2 亿参数，金融模型，T5 +GPT （3）BBT-1-0.2B-003: 2 亿参数，金融模型，T5+UL2 BBT-1-1B：10 亿参数金融模型，T5 Encoder+Decoder 架构，使用金融中文语料库 1000 亿 tokens 进行预训练，包含社交媒体，财经新闻，券商研报，公司公告财报等数据 BBT-2-12B-Text：120 亿参数基础模型，GPT Decoder-Only 架构，未经指令微调，完成 2000 亿 token 预训练，模型性能还有较大提升空间，开发者可在通用模型上继续训练或进行下游任务微调 BBT-2.5-13B-Text: 130 亿参数基础模型，GPT Decoder-Only 架构，未经指令微调 ssymmetry 语料库，开源了接近 1000 亿 tokens 的预训练语料，包括通用语料和金融语料，详见： https://bbt.ssymmetry.com/data.html 评测数据集，开源了 8
50710编辑于 2023-04-30
来自专栏JavaEdge
Tomcat 架构模型
Tomcat 无需任何三方框架，即可实现业务需要（必须有线程池）的运行 servlet 的容器，其线程模型并非不如 Netty！只是使用场景不同而已！
36420发布于 2021-02-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71

构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

以GPT为代表的Decoder-Only架构凭啥C位出道？

解码器架构：构建智能语言模型的核心设计

yolov8 模型架构轻量化，极致降低参数量

什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

架构模型DDD 分层架构

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

8，模型的训练

Google的 Pathways（理想）与 PaLM（现实）

k8s架构

1.ARMv8-A架构

K8s架构

【多模态大模型面经】 Transformer 专题面经

Transformer 架构：重塑序列建模的基石

大语言模型-2.23-主流模型架构与新型架构

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源

Tomcat 架构模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71

构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

以GPT为代表的Decoder-Only架构凭啥C位出道？

解码器架构：构建智能语言模型的核心设计

yolov8 模型架构轻量化，极致降低参数量

什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

架构模型DDD 分层架构

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

8，模型的训练

Google的 Pathways（理想）与 PaLM（现实）

k8s架构

1.ARMv8-A架构

K8s架构

【多模态大模型面经】 Transformer 专题面经

Transformer 架构：重塑序列建模的基石

大语言模型-2.23-主流模型架构与新型架构

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2， 已开源

Tomcat 架构模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源