首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏计算机工具

    ResNet 模型原理

    3、提高模型的泛化能力 在一些深度神经网络的训练中,由于训练集与测试集的差异,造成了过拟合的现象。 通过加入Skip Connection,可以让更多的信息有机会被保留下来,从而增强模型的泛化能力,降低过拟合的风险。 残差网络建立在BN之上,用多项式拟合差值。 作者通过实验:通过浅层网络+ y=x 等同映射构造深层模型,结果深层模型并没有比浅层网络有等同或更低的错误率,推断退化问题可能是因为深层的网络并不是那么好训练,也就是求解器很难去利用多层网络拟合同等函数 如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。那现在要解决的就是学习恒等映射函数了。 ResNet 模型原理 VGG 网络在特征表示上有极大的优势,但深度网络训练起来非常困难。

    52810编辑于 2024-12-14
  • 来自专栏开源心路

    chatGPT模型原理

    简介 openai 的 GPT 大模型的发展历程。 GPT-2 我们一般的 NLP 任务,文本分类模型就只能分类,分词模型就只能分词,机器翻译也就只能完成翻译这一件事,非常不灵活。 GPT-3 大模型中的大模型 首先, GPT-3 的模型所采用的数据量之大,高达上万亿,模型参数量也十分巨大,学习之复杂,计算之繁复不说了。 这种引导学习的方式,在超大模型上展示了惊人的效果:只需要给出一个或者几个示范样例,模型就能照猫画虎地给出正确答案。注意啊,是超大模型才可以,一般几亿参数的大模型是不行的。 (我们这里没有小模型,只有大模型、超大模型、巨大模型) chatGPT chatGPT 模型上基本上和之前都没有太大变化,主要变化的是训练策略变了。

    41810编辑于 2023-06-30
  • 来自专栏NLP/KG

    大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

    大语言模型的预训练1:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍 S 1.大语言模型的预训练 1.LLM预训练的基本概念 预训练属于迁移学习的范畴。 大语言模型的预训练是指搭建一个大的神经网络模型并喂入海量的数据以某种方法去训练语言模型。大语言模型预训练的主要特点是训练语言模型所用的数据量够多、模型够大。 通过使用预训练技术,可以将模型从一个任务迁移到另一个任务,从而提高模型在新任务上的性能; 模型可解释性问题:预训练技术可以帮助模型学习抽象的特征,从而提高模型的可解释性。 1.3 LLM预训练的基本原理 大语言模型预训练采用了 Transformer 模型的解码器部分,由于没有编码器部分,大语言模型去掉了中间的与编码器交互的多头注意力层。 1.5 预训练后续阶段 大语言模型预训练是指采用大量数据喂入大规模模型去训练语言模型,得到初始化的模型参数。

    8.7K14编辑于 2023-07-17
  • DeepSeek模型原理、回答机制与模型因子

    本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 以下是DeepSeek的主要工作原理:预训练阶段undefinedDeepSeek通过大规模无监督学习,在海量文本数据上进行预训练。它采用自回归语言建模的方式,预测给定上下文中的下一个词。 五、DeepSeek原理的流程图表以下是一个简化版的DeepSeek工作流程图,展示了从输入到输出的核心步骤:+-------------------+ +----------------- 通过对原理、回答机制和模型因子的深入分析,我们可以看到DeepSeek在多个方面的独特优势。未来,随着技术的不断进步,DeepSeek有望在更多应用场景中发挥更大的价值。

    2.4K10编辑于 2025-03-20
  • 来自专栏机器学习入门

    【AI大模型】ChatGPT模型原理介绍(下)

    学习目标 了解ChatGPT的本质 了解GPT系列模型原理和区别 GPT-3介绍 2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are 目前基于ChatGPT的论文并没有公布, 因此接下来我们基于openai官网的介绍对其原理进行解析 2.1 ChatGPT原理 在介绍ChatGPT原理之前, 请大家先思考一个问题: “模型越大、参数越多 接下来, 将对每一步的细节进行详述. 2.4 监督调优模型 ​ ​ 工作原理: 第一步是收集数据, 以训练有监督的策略模型. 工作原理: 选择 prompt 列表, SFT 模型为每个 prompt 生成多个输出(4 到 9 之间的任意值) 标注者将输出从最佳到最差排序. 工作原理: (明确任务: 模型是通过RL来更新) 第一步: 获取数据 第二步: 将数据输入PPO模型 (这里直接也可以理解为ChatGPT模型), 得到一个输出结果 第三步: 将第二步得到的结果输入到

    61310编辑于 2024-09-18
  • 来自专栏机器学习入门

    【AI大模型】ChatGPT模型原理介绍(上)

    学习目标 了解ChatGPT的本质 了解GPT系列模型原理和区别 什么是ChatGPT? 那么ChatGPT背后的实现原理是什么呢?接下来我们将给大家进行详细的解析. 在我们了解ChatGPT模型原理之前, 需要回顾下ChatGPT的成长史, 即我们需要对GPT-1、GPT-2、GPT-3等一系列模型进行了解和学习, 以便我们更好的理解ChatGPT的算法原理. 这里的 k 表示上文的窗口大小,理论上来讲 k 取的越大,模型所能获取的上文信息越充足,模型的能力越强。 这些书籍因为没有发布, 所以很难在下游数据集上见到, 更能验证模型的泛化能力. 2.4 GPT-1模型的特点 模型的一些关键参数为: 参数 取值 transformer 层数 12 特征维度 768

    1.4K10编辑于 2024-09-18
  • Transformer 模型的工作原理

    Transformer 模型的工作原理 在人工智能里,Transformer 模型宛如一颗耀眼的巨星,自诞生起便光芒四射,引领着整个领域不断向前发展。 让我们一同深入探索Transformer模型的奇妙世界,感受其独特魅力。 一、Transformer 模型 Transformer 模型是一种深度学习架构,最初为自然语言处理(NLP)而设计,如今已广泛应用于其他领域,如计算机视觉。 自注意力机制在神经网络中的架构图 总结来说,自注意力机制让模型关注序列中的所有元素,不遗漏重要信息,且能捕捉不同位置间的依赖关系,为 Transformer 模型的优异表现奠定基础。 例如,传统模型需一千万参数达 85%性能,经优化的模型仅需三百万参数就能达 87%性能,用更少资源实现更好效果,降低了计算成本,使先进 AI 模型能在更多设备上部署应用。

    97210编辑于 2025-06-13
  • 来自专栏大模型成长之路

    【大模型学习 | BLIP原理

    此外,目前广泛采用的数据集仍存在大量文本噪声,进一步限制了模型的性能提升。 一、预训练方法 1.1 图像文本模型 图像特征提取模型:VIT 文本特征提取模型:Unimodal encoder; Image-grounded text encoder; Image-grounded 为了提升模型对跨模态语义的建模能力,Cross-Attention 被加入到 SA 与 FFN 之间,作为一种跨模态交互机制。 这是因为生成任务要求模型按序预测每一个词,不能访问未来的信息。Causal attention 能保证自回归生成的正确性,使模型适合用作 decoder,实现图像到文本的自然语言生成。 最后组成一个新的数据集预训练模型

    1K10编辑于 2025-07-01
  • 来自专栏云数据库技术

    大语言模型技术原理

    除了自然语言本身的优势外,语境的上下文学习能力、迁移学习和文字总结能力也有很大的发挥空间,带着这些思考,我们有必要了解一下大语言模型背后的发展及其技术原理。 得到的一般任务不可知模型(或称为通用模型)优于经过判别训练的模型,在论文选定的12种数据集中有9个取得更好效果。 InstructGPT模型的参数为1.3B,而GPT-3模型的参数为175B,约为InstructGPT模型的130倍,但InstructGPT模型的输出却优于GPT-3模型的输出。 Self-Attention 原理 之前说Transformer的自注意机制突破了文本关注距离的限制,因此非常关键。 PPO 算法已经存在了相对较长的时间,有大量关于其原理的指南,因而成为 RLHF 中的有利选择。 我们将微调任务表述为 RL 问题。

    2.2K45编辑于 2023-05-30
  • 来自专栏机器学习算法原理与实践

    最大熵模型原理小结

    理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型原理做一个小结。 1. 熵和条件熵的回顾     在决策树算法原理(上)一文中,我们已经讲到了熵和条件熵的概念,这里我们对它们做一个简单的回顾。     熵度量了事物的不确定性,越不确定的事物,它的熵就越大。 最大熵模型的定义     最大熵模型假设分类模型是一个条件概率分布$P(Y|X)$,X为特征,Y为输出。      最大熵模型损失函数的优化     在上一节我们已经得到了最大熵模型的函数$H(P)$。 惯例,我们总结下最大熵模型作为分类方法的优缺点:     最大熵模型的优点有:     a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。     

    82310发布于 2018-08-14
  • 来自专栏瓜农老梁

    Reactor线程模型原理笔记】

    前言 Reactor模型是基于事件驱动的线程模型,可以分为Reactor单线程模型、Reactor多线程模型、主从Reactor多线程模型,通常基于在I/O多路复用实现。 一、Reactor单线程模型 1、原理图示 在Reactor单线程模型中,操作在同一个Reactor线程中完成。根据事件的不同类型,由Dispatcher将事件转发到不同的角色中处理。 二、Reactor多线程模型 1、原理图示 在Reactor多线程模型中。根据事件的不同类型,由Dispatcher将事件转发到不同的角色中处理。 三、主从Reactor多线程模型 1、原理图示 Reactor多线程模型,由Acceptor接受客户端连接请求后,创建SocketChannel注册到Main-Reactor线程池中某个线程的Select

    3.3K10发布于 2020-06-19
  • 来自专栏机器学习与统计学

    如何口述机器学习模型原理

    作者:Ricky翘 zhuanlan.zhihu.com/p/34128571 有时碰到跟别人聊起模型的熟悉时,不免要阐述下模型原理,但一般口头交流都比较难,因为脑海里面都是一些公式,似乎从功利角度有必要把模型原理用文字表达一遍 如何是对于矩阵,原理是一样的,不会设计矩阵的转置和矩阵的求导,最后参数为delta=X的转置乘以X,这两个乘起来再求他们的逆,最后再乘X的转置和Y ? 每一次的计算是为了减少上一次的残差(residual),而为了消除残差,我们可以在 残差减少的梯度(Gradient)方向 上建立一个新的模型。 所以说,在Gradient Boost中,每个新的模型的遍历是为了使得之前模型的残差往梯度方向减少。与传统Boost对正确、错误的样本进行加权有着很大的区别。

    94920发布于 2019-07-22
  • 来自专栏Java项目实战

    Transformer大模型的运行原理

    一、原理介绍Transformer是谷歌研究院在2017年提出的一种重要的神经网络结构,目前已广泛应用于自然语言处理领域。 它的主要运行原理如下:Encoder-Decoder结构Transformer采用Encoder-Decoder结构。 每个Attention都有不同的权重,这允许模型 jointly attend 到信息的不同表示来计算最终的输出。 综上,Transformer的主要原理在于Encoder-Decoder结构、Multi-Head Attention机制、Positional Encoding方法以及残差连接和层标准化技术。 BERT(谷歌):自然语言理解预训练模型,应用于搜索、推荐、机器翻译等,官网bert.dev,用户数10亿+。

    2.5K10编辑于 2023-06-20
  • 来自专栏机器学习养成记

    推荐算法|FM模型原理简介

    1概述 因子分解机(Factor Machine,MF)是一种机器学习预测模型,在模型原理方面主要有以下三个优点: 可以解决高维稀疏矩阵问题 具有线性复杂度 相比于其他矩阵分解类的模型,FM允许更丰富的输入维度 2原理简述 这里参考论文《Factorization Machines》简述一下FM的模型原理,同步对应上述所提的三个优点。 解决高维稀疏矩阵问题的原理 FM的模型公式如下,可以看出,公式前面用红色框出来的部分,就是传统的线性模型,FM是在线性模型的基础上增加了交叉项。 在进行预测前的特征构造过程中,经常需要对特征进行组合以扩展模型的能力,FM模型相当于直接把特征组合加入模型不需人为处理。

    2.4K20编辑于 2022-01-11
  • 来自专栏大模型成长之路

    【大模型学习 | CLIP 原理&实现】

    Learning Transferable Visual Models From Natural Language Supervision 作者在摘要中指出,传统的监督式学习方法限制了视觉模型的泛化能力 以往的图像识别任务通常依赖于人为定义的分类标签进行训练,这种方式不仅数据成本高,而且模型更容易过拟合于训练类别。 训练所需数据集大小相似; 二、预训练方法 作者首先尝试了直接采用联合学习的方式,采用CNN和Transformer来预测图像标题;(Transformer采用了6300万个参数,识别图像的类别会比训练一个词袋模型慢三倍 和文本 Transformer)进行编码,基于余弦相似度学习多模态的嵌入空间,最大化配对图文之间的相似度,最小化不匹配对的相似度,并通过symeertric entropy loss优化相似得分: 训练模型并没有采用预训练权重模型 cross_entropy_loss(logits, labels, axis=1) # 文本 → 图像,即文本作为query loss = (loss_i + loss_t) / 2 在图像特征提取模型

    1.8K21编辑于 2025-07-15
  • 来自专栏AI算法能力提高班

    DDIM | 隐式扩散模型原理

    ://arxiv.org/abs/2010.02502 code https://github.com/ermongroup/ddim ---- Abstract DDIMs是一个更高效的迭代隐式概率模型 这些非马尔可夫过程可以对应于确定性的生成过程,从而产生能更快地生成高质量样本的隐式模型 DDIMs相对DDPMs,生成样本的速度快了10x,甚至50x,可以生成高质量样本,最重要的是实现了inversion 由此产生的模型成为隐式概率模型,其中样本从潜在变量生成,其固定程序为(从 xT 到 x0) image-20230927103549942 当 η = 1 时为 DDPM,当 η = 0 时为 DDIM

    2.4K20编辑于 2023-09-28
  • 来自专栏巡山猫说数据

    原理」需求分层-KANO模型解读

    今天我们来讲讲,一个常见的需求分层的原理模型。想必大家都清楚马斯洛需求分层,我们今天来从另一个角度观察下需求分层:KANO模型。 需求的分层 讲到需求的分层,我们都会想到马斯洛的需求层次划分。 还有一种需求的层次划分,更易于应用在产品和分析上,也就是我们上面提到的KANO模型(卡诺模型)。卡诺模型更多的是关于产品对于用户的兴奋点和满意度。 一般来说,(按照卡诺模型)我们可以讲需求分解为基本需求,期望需求,以及兴奋需求,无差异需求,和反期望需求。对应到具体的产品能力,我们来解读下下这几类需求的含义。 知识点总结 以上,就是今天关于卡诺模型的介绍,我们一起来总结下知识点: 1、需求不仅仅可以按照需求层次划分,还可以结合用户期望度来划分。 用需求层次来划分,可以参考马斯洛需求分层,用户期望度来划分,则可以使用卡诺模型。 2、卡诺需求可以将用户需求层次分为基本需求,期望需求,以及兴奋需求,无差异需求,和反期望需求。

    1.6K40发布于 2021-05-19
  • 来自专栏小工匠聊架构

    Nacos架构与原理 - 配置模型

    ---- Nacos 配置模型 基础模型 Nacos 提供可视化的控制台,可以对配置进行发布、更新、删除、灰度、版本管理等功能。 SDK 可以提供发布配置、更新配置、监听配置等功能。 ---- 配置资源模型 Namespace 的设计就是用来进行资源隔离的,我们在进行配置资源的时候可以从以下两个角度来看: 从单个租户的角度来看,我们要配置多套环境的配置,可以根据不同的环境来创建 Namespace 如下图所示 ---- 配置存储模型(ER 图) Nacos 存储配置有几个比较重要的表分别是:  config_info 存储配置信息的主表,里面包含 dataId、groupId、content

    41320编辑于 2023-07-11
  • 来自专栏Html5知典

    机制和原理——盒子模型

    每个可视的HTML元素在页面上都会被渲染成一个矩形区域,通常被称为盒子模型。 区域组成 盒子模型主要定义四个区域: 内容(content)、 内边距(padding)、 边框(border) 外边距(margin)。 ? 类型 盒子模型有两种类型:传统的content-box和CSS3之后才导入的border-box,由box-sizing属性定义。

    68010发布于 2019-11-26
  • 来自专栏leehao

    Java并发编程原理-内存模型

    (信息共享、OOM内存溢出) VM stack(栈):Java方法运行的内存模型(OOM内存溢出)。如下: PC:Java线程的私有数据,这个数据就是执行下一条指令的地址。 JVM内存模型 Java Memory Model(JMM),是一种规范,是一种抽象的模型。 有可能存在线程不安全(不一致性) 其中,JVM内存区域划分就是根据JVM的内存模型(JMM)来进行实现的。JMM是模型,JVM内存区域是实现方案。 Java线程与硬件处理器 Java内存模型与硬件内存架构的关系 由上可知,交叉访问,导致数据不一致性。 4. Java内存模型的必要性 Java内存模型的作用:规范内存数据和工作空间数据的交互 并发编程的三个重要特性 原子性:不可分割 ,如转账操作,扣钱和加钱,要么同时成功,要么同时失败。

    22310编辑于 2025-02-11
领券