首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能

    一文搞懂Encoder-only架构

    什么是Encoder-only架构?为什么BERT只需要"读懂"而不需要"生成"? 一、简介Encoder-only架构是一种只包含编码器(Encoder)组件的神经网络结构,它专注于理解输入文本的深层语义表示,而不具备生成新文本的能力。 这就是Encoder-only架构的核心思想:专业化地做好"理解"这一件事。二、为什么需要专门的"理解"模型? 架构专门针对第一类需求进行了优化。 五、Encoder-only的局限性虽然Encoder-only架构在理解任务上表现出色,但它也有明显的局限:无法生成文本:只能处理输入,不能创造输出固定输入长度:通常有最大序列长度限制(如512个token

    25910编辑于 2026-03-05
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:Encoder-only与Decoder-only模型架构:基于本地小模型的实践解析

    ​一、前言 在大模型蓬勃发展的今天,我们天天被动输入,一度对这个名字都耳熟能详,但对于主流架构可能还没有接触的很深,大模型的Encoder-only与Decoder-only两大架构犹如两条截然不同的技术路径 二、Encoder-only 架构1. 代表模型BERT 是 Encoder-only 架构最著名的代表,它的出现彻底改变了自然语言处理领域,Encoder-only模型的预训练目标与生成式模型有本质不同,其核心是深度理解而非生成。 核心架构Encoder-only模型的核心是Transformer的编码器部分。 Encoder-only架构能同时利用所有上下文信息,生成高质量的“上下文化词向量”。

    52632编辑于 2026-01-17
  • 来自专栏编程一生

    系统架构11条原则

    原则三:分治原则 解析: 做架构时不要想着一次性把所有的功能都做好,要拥抱 MVP(Minimal Viable Product),最小可运行版本。 原则五:拥抱变化 解析: 重视架构扩展性和可运维性。无状态的系统的是可扩展的和直接的。任何时候都要考虑这一点,不要搞个不可扩展的,有状态的东东出来。否则,一旦需要改变,成本很高。 如果不能降低人力成本,反而需要更多的人,那么这个架构设计一定是失败的。 稳定性原则 原则八:依赖最简 解释: 依赖原则是去除依赖、弱化依赖、控制依赖。多一个依赖多一分风险。 如果一件事情有可能发生则在生产环境中一定会发生,架构中要做好容错设计。 原则十一:用成熟的技术 解析: 不要给别人的技术当小白鼠,不要因技术本身的问题影响系统的稳定。

    69320编辑于 2022-05-06
  • 来自专栏闲余说

    架构设计 11-可扩展架构之微内核架构

    导读:《架构设计》系列为极客时间李运华老师《从0开始学架构》课程笔记。本文为第十一部分。主要介绍了如何面向功能拆分架构,首先介绍了微内核架构的基本架构设计,以及几种常见架构的实现与特点。 关注本公众号 回复 “架构设计” 获取架构设计笔记完整思维导图 基本架构 两类组件 核心系统(core system) 负责和具体业务功能无关的通用功能: 模块加载 模块间通信 插件模块(plug-in 常见架构 OSGi 架构 OSGi 的全称是 Open Services Gateway initiative,本身其实是指 OSGi Alliance。 现在我们谈论 OSGi,已经和嵌入式应用关联不大了,更多是将 OSGi 当作一个微内核的架构模式。 逻辑架构 模块层(Module 层) 模块层实现插件管理功能。 实现 插件管理 规则引擎中的规则就是微内核架构的插件,引擎就是微内核架构的内核。规则可以被引擎加载和执行。 规则引擎架构中,规则一般保存在规则库中,通常使用数据库来存储。

    1.1K20编辑于 2022-08-19
  • 来自专栏深度学习和计算机视觉

    YOLOv11 架构改进 & 常见指令

    在之前的 YOLO 版本基础上,YOLO11架构和训练上提供了显著的改进。在保持速度的同时提高性能的最重要的架构变化是增加了 C3K2 块、SPFF 模块和 C2PSA 块。 这种结构使得在复杂场景中更精确的检测成为可能,并提高了 YOLOv11 的准确性。 除了这些架构变化,YOLOv11 像 YOLOv8 一样具有多模型能力。 得益于其优化的架构和高效的处理能力,它可以部署在边缘设备、云平台和支持 NVIDIA GPU 的系统上。 由于这些优化和创新,YOLOv11 在实时应用中提供了性能提升。 在 Ultralytics (详见官网:https://docs.ultralytics.com/models/yolo11/)页面上,当他们评估 YOLOv11 与以前版本相比的性能时,他们发表了以下评论 使用 YOLOv11 使用 PyTorch 构建 YOLOv11 模型及其与其他模式的使用简要如下。 步骤 1:首先,我们需要下载 Ultralytics 库。

    2.2K10编辑于 2024-10-30
  • 来自专栏AI前沿技术

    以GPT为代表的Decoder-Only架构凭啥C位出道?

    大模型架构可以分为三类 Decoder-Only,Encoder-Only和Encoder-Decoder。 不同架构对应不同的训练任务,并在不同的场景任务上达到SOTA效果。 本文主要围绕三种架构介绍: 1)Valina Transformer中编码器和解码器核心机制和差异点。 2)结合三种架构中典型的代表模型GPT,Bert,GLM,介绍架构定义和优势。 2,Encoder-Only 架构 2.1,自编码定义 Encoder-Only架构主要是自编码模型(Auto-encoder model),其采用句子重建的任务进行预训练,即预先通过某种方式破坏句子, 相对于encoder-only模型中的双向attention,其容易退化成低秩状态,而因果矩阵为下三角满秩,建模状态更强。 相同参数量的训练效率上,Decoder-Only > Encoder-Only > Encoder-Decoder。

    80310编辑于 2026-01-13
  • 来自专栏时空探索之旅

    AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    PatchTST (ICLR 2023) 的性能是从训练集的子集学习的,通过子集的递减百分比进行评估 上图,ETTh1仅用5%数据训练,MSE提升了11%。 典型的基于Transformer的预测器架构 主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 然而,经过预训练后,Timer作为encoder-only的Transformer比encoder-only的预训练的模型表现出更好的泛化,从而提高了大多数下游场景的性能。 观察结果部分说明了为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 灵活序列长度(Flexible Sequence Length): 可变上下文长度上的性能encoder-only架构提供了额外的灵活性,以适应一系列不同长度的结构。

    1.1K10编辑于 2024-11-19
  • 来自专栏超级架构师

    【PostgreSQL 架构】PostgreSQL 11和即时编译查询

    此处使用的完整架构在tpch-schema.sql上可用,而索引在tpch-pkeys.sql和tpch-index.sql上。 原文:https://www.citusdata.com/blog/2018/09/11/postgresql-11-just-in-time/ 本文:http://jiagoushi.pro/node /924 讨论:请加入知识星球或者微信圈子【首席架构师圈】 微信公众号如果喜欢仙翁的分享,请关注微信公众号【首席架构师智库】 仙翁小号如果想进一步讨论,请加仙翁小号【intelligenttimes】, 注明你希望加入的群:架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化,产品转型。 微信圈子如果想和志趣相投的同好交流,请关注仙翁的微信圈子【首席架构师圈】。 如果想向大咖提问,近距离接触,或者获得私密分享,请加入知识星球【首席架构师圈】

    2.3K20发布于 2020-07-20
  • 来自专栏时空探索之旅

    【重制版】AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer

    PatchTST (ICLR 2023) 的性能是从训练集的子集学习的,通过子集的递减百分比进行评估 上图,ETTh1仅用5%数据训练,MSE提升了11%。 典型的基于Transformer的预测器架构 主流的encoder-only结构的深度预测器通过Flatten和投影获得预测token。 encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验: encoder-only的Transformer在不饱和场景(1%Traget-None 部分实验结果说明为什么encoder-only结构在主流时间序列预测领域的流行;即encoder-only模型更适合于小基准,而decoder-only架构具有显著的泛化能力和模型能力,是更适合开发LTSM 灵活序列长度(Flexible Sequence Length): 可变上下文长度上的性能encoder-only架构提供了额外的灵活性,以适应一系列不同长度的结构。

    68110编辑于 2024-11-19
  • 来自专栏IT架构圈

    『互联网架构』软件架构-spring之AOP场景实战(11

    PS:详细得我不多说了,直接看源码把,主要理解这个思路里面有classload加载对应的class,通过spring的IOC加载bean的方式获取Advice,进行控制。

    39320发布于 2019-03-08
  • 来自专栏DeepHub IMBA

    LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

    最有名的嵌入模型就是BERT是一个典型的encoder-only模型 生成模型则设计用来基于训练数据生成新的数据实例。在NLP中,这通常意味着生成文本。 这两种架构在设计和应用上有所不同: BERT (Encoder-only):BERT利用双向Transformer编码器,这意味着它在处理文本时可以同时考虑前面和后面的上下文。 与Encoder-only模型的对比:论文比较了使用LLM2Vec转换的decoder-only模型与传统的encoder-only模型(如BERT)。 其实我们可以将这篇论文的重点简单的理解为,如何将一个decoder-only的模型快速并且无损的转换成一个encoder-only模型。 论文的作者还提供了一个脚本: experiments/run_mntp.py 它目前支持Llama和Mistral架构的模型,所以我们直接可以拿来使用 git clone https://github.com

    4.2K10编辑于 2024-05-10
  • 来自专栏卯金刀GG

    淘宝应对双11的技术架构分析

    双“11”最热门的话题是TB ,最近正好和阿里的一个朋友聊淘宝的技术架构,发现很多有意思的地方,分享一下他们的解析资料:   淘宝海量数据产品技术架构   数据产品的一个最大特点是数据的非实时写入,正因为如此 图1 淘宝海量数据产品技术架构   按照数据的流向来划分,我们把淘宝数据产品的技术架构分为五层(如图1所示),分别是数据源、计算层、存储层、查询层和产品层。 以上是淘宝海量数据产品在技术架构方面的一个概括性的介绍,接下来我将重点从四个方面阐述数据魔方设计上的特点。    图8 glider的技术架构   有经验的读者一定可以想到,从本质上来讲,这就是广义上的异构“表”之间的JOIN操作。那么,谁来负责这个事情呢? 所以说,一个良好的架构固然能够在很大程度上降低开发和维护的成本,但它自身一定是随着数据量和流量的变化而不断变化的。我相信,过不了几年,淘宝数据产品的技术架构一定会是另外的样子。

    3.2K20发布于 2019-07-26
  • 来自专栏张善友的专栏

    .NET 11 Preview 2 架构演进、技术深度解析

    作为一个标准期限支持(Standard Term Support, STS)版本,.NET 11 的支持生命周期为18个月,预计将于2028年11月结束 。 这种架构转变直接削减了内存分配峰值,显著降低了垃圾回收器的常态化压力。 硬件加速与基础类库(BCL)的深度优化 不断从现代 CPU 架构中压榨极致性能,并缩小应用程序的物理占用空间,是.NET 11 开发周期的另一大核心支柱。 对于 ARM64 架构,.NET 11 优化了 stackalloc 的内存清零机制,通过更高效地利用 STORE_BLK 指令,大幅减少了栈内存分配时的总指令数 6。 虽然该特性原计划在较晚的预览版中推出,但社区代码库追踪显示,早期的 Unions 特性代码已被合并至.NET 11 Preview 3 的分支中,并在 Preview 2 发布期间引发了极其广泛的架构审视

    39510编辑于 2026-03-14
  • 来自专栏云计算linux

    前端架构师之11_JavaScript事件

    用户单击button按钮,这个行为就会被JavaScript中的click事件侦测到;然后让其自动执行,为click事件编写的程序代码,如在控制台输出“按钮被单击”。

    1.7K10编辑于 2024-12-13
  • 来自专栏攻城狮Chovas

    微服务架构Day11-SpringBoot之检索

    SpringBoot自动配置的ElasticsearchRepository,ElasticsearchTemplate,Client

    49820编辑于 2022-01-22
  • 来自专栏java_python

    java架构之路-(11)JVM的对象和堆

      上次博客,我们说了jvm运行时的内存模型,堆,栈,程序计数器,元空间和本地方法栈。我们主要说了堆和栈,栈的流程大致也说了一遍,同时我们知道堆是用来存对象的,分别年轻代和老年代。但是具体的堆是怎么来存放对象的呢?什么时候可以将对象放置在老年代呢。下面我来看一下。

    62340发布于 2019-09-18
  • 来自专栏计算机视觉

    Transformer 架构—Encoder-Decoder

    尽管现在有数千种不同的 Transformer 模型,但大多数属于以下三种类型之一: (1)Encoder-only 这些模型将文本输入序列转换为丰富的数字表示,非常适合文本分类或命名实体识别等任务。 实际上,decoder-only 架构encoder-only 架构的应用程序之间的区别有点模糊。 一、Encoder 家族 第一个基于 Transformer 架构encoder-only 模型是 BERT。 encoder-only 模型仍然主导着 NLU(Natural Language Understanding)任务(例如文本分类、命名实体识别和问题解答)的研究和行业。 11B 模型在多个基准测试中产生了领先的结果。 2. BART BART 在 encoder-decoder 架构中结合了 BERT 和 GPT 的预训练过程。

    2.3K10编辑于 2024-03-19
  • 来自专栏JavaEdge

    Tomcat架构解析之2 connector BIOHTTP11ProtocolMapperCoyoteAdapter

    它主要是接收,解析HTTP请求,然后调用本service下的相关Servlet Tomcat从架构上采用的是一个分层结构,因此根据解析过的HTTP请求,定位到相应的Servlet也是一个相对比较复杂的过程 相对来说,Tomcat在处理静态页面方面一直有一些瓶颈,因此通常的服务架构都是前端类似Nginx的web服务器,后端挂上Tomcat作为应用服务器(当然还有些其他原因,例如负载均衡等) Tomcat在 协议实现默认支持BIO的 无论BIO/NIO都是实现一个org.apache.coyote.ProtocolHandler接口,因此如果需要定制,也必须实现这个接口 来看看默认状态下HTTP connector的架构及其消息流 Connector的三大件 HTTP11Protocol Mapper CoyoteAdapter HTTP11Protocol 类全路径org.apache.coyote.http11.Http11Protocol ); connector的容器就是StandardEngine,代码的可读性很强,获取StandardEngine的pipeline,然后从第一个valve开始调用逻辑,相应的过程请参照tomcat架构分析

    99850发布于 2018-05-16
  • 来自专栏巴啦啦的积累

    架构整洁之道》第 11 章 DIP:依赖反转原则

    均为原创,读架构整洁之道的笔记。依赖反转原则:(DIP :Dependency Inversion Principle)。 这就可以认定,接口比实现稳定,如果想要追求架构上的稳定,就必须多使用抽象的,少依赖多变的具体实现。具体的编码守则:多使用抽象接口,尽可能的避免依赖多变的具体实现。 控制流(抽象层)跨越架构的边界(红线),与源代码(具体实现)跨越该边界的方向是相反的。这就是DIP被称为依赖反转的原因。避开了直接依赖具体实现。 本章小结主要关注那条红色曲线,那是架构边界。

    62020编辑于 2023-05-27
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记2:一文看清Transformer大家族的三股势力

    encoder、decoder既可以单独使用,又可以再一起使用,因此,基于Transformer的模型可以分为三大类: Encoder-only Decoder-only Encoder-Decoder 不同的架构,不同的预训练方式,不同的特长 对于Encoder-only的模型,预训练任务通常是“破坏一个句子,然后让模型去预测或填补”。 而Seq2seq架构,由于包含了encoder和decoder,所以预训练的目标通常是融合了各自的目标,但通常还会设计一些更加复杂的目标,比如对于T5模型,会把一句话中一片区域的词都mask掉,然后让模型去预测 seq2seq架构的模型,就适合做翻译、对话等需要根据给定输入来生成输出的任务,这跟decoder-only的模型还是有很大差别的。 总结表如下: 类型 架构 Transformer组件 Examples Tasks BERT-like auto-encoding models Encoder ALBERT, BERT, DistilBERT

    4.5K30发布于 2021-10-08
领券