首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型成长之路

    【大模型学习 | BLIP2原理

    BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型,作者提出一种使用两个阶段预训练模型Querying Transformer (Q-Former)。 一、预训练方法这种预训练方法分为了两个阶段 (1)视觉语言特征表示学习阶段 (2)视觉到文本的生成学习阶段 1.1 Q-Former主要作用就是对齐两个不同模态的冻结预训练模型 Q-Former包含了两个 transformer子模块:(1)Image Transformer (特征提取) (2) Text transformer (作为文本编码器和解码器) ; 一组可学习的查询嵌入向量作为 Image 作者尝试了两种LLM冻结模型:(1) decoder-based LLMs : query 表征作为 LLM 的输入前缀(prefix) → LLM 自己完成文本生成(2) encoder-decoder-based

    1.1K00编辑于 2025-07-01
  • 来自专栏全栈程序员必看

    pix2pix模型(雪花算法原理)

    本文介绍基于cGAN的pix2pix模型算法,针对不同的图片生成任务进行测试。 图像处理、计算机图形学和计算机视觉中的许多问题都可以归结为将输入图像“翻译”成相应的输出图像。 本报告主要介绍一种条件生成对抗网络延申模型pix2pix,并解释相关原理与计算公式,测试数据并展示。 图像条件模型处理了法线映射的图像预测,未来帧预测,产品照片生成,以及稀疏标注的图像生成。 pix2pix模型生成器使用基于“U-Net”的架构,而鉴别器使用卷积的“PatchGAN”分类器,它只在图像patch的尺度上对结构进行惩罚。 但是pix2pix模型要求训练样本必须是“严格成对”的,这种样本往往比较难以获得。

    2.2K20编辑于 2022-07-28
  • 来自专栏啄木鸟软件测试

    多模态大模型技术原理与实战(2)

    (2)是否包含编码器的输出作为输入 在原始 Transformer 模型的基础上,在自然语言处理领域中逐渐衍生出以下3 种方式来构建预训练语言模型。 (2)只包含解码器的预训练语言模型,比如 ChatGPT。 (3)编码器和解码器都包括预训练语言模型,比如 BART。 2)指令数据集通过指令的形式指导模型的生成,能够提高预训练语言模型的泛化能力,使其在之前未做过的任务中能够表现出优秀的零样本推理能力。 思维链的工作原理是将复杂的逻辑推理问题,按照化繁为简思想化解为几个简单的问题,然后逐个解决,这样做的好处是使得生成过程有着更清晰的逻辑链路,并具备了一定的可解释性。 (2)信息提取能力弱。 (3)并行计算能力差。 (4)领域迁移能力弱。 GPT-1 将模型的训练分为两个阶段: 第一个阶段通过大批量无标签文本数据构建一个初始的生成式语言模型

    54210编辑于 2024-09-10
  • 来自专栏全栈程序员必看

    seq2seq模型是什么_seq2seq原理

    1 seq2seq模型简介 seq2seq 模型是一种基于【 Encoder-Decoder】(编码器-解码器)框架的神经网络模型,广泛应用于自然语言翻译、人机对话等领域。 1.1 seq2seq原理 通常,编码器和解码器可以是一层或多层 RNN、LSTM、GRU 等神经网络。为方便讲述原理,本文以 RNN 为例。seq2seq模型的输入和输出长度可以不一样。 图片 seq2seq网络结构图 Encoder 图片 Decoder 图片 说明:xi、hi、C、h’i 都是列向量 1.2 seq2seq+attention原理 普通的 seq2seq 模型和 AtttionSeq2seq 模型的实现。 笔者工作空间如下: 图片 代码资源见–>seq2seq模型和基于注意力机制的seq2seq模型 3 SimpleSeq2Seq SimpleSeq2Seq(input_length, input_dim

    2.2K30编辑于 2022-11-15
  • 来自专栏深度应用

    ·word2vec原理讲解Negative Sampling的模型概述

    word2vec原理讲解Negative Sampling的模型概述 目录 1. Hierarchical Softmax的缺点与改进 2. 基于Negative Sampling的模型概述 3. 随机初始化所有的模型参数θθ,所有的词向量ww     2. 输出:词汇表每个词对应的模型参数θθ,所有的词向量xwxw     1. 随机初始化所有的模型参数θθ,所有的词向量ww     2. Negative Sampling的模型源码和算法的对应       这里给出上面算法和word2vec源码中的变量对应关系。      以上就是基于Negative Sampling的word2vec模型,希望可以帮到大家,后面会讲解用gensim的python版word2vec来使用word2vec解决实际问题。

    1.1K30发布于 2019-06-27
  • 来自专栏机器学习算法原理与实践

    word2vec原理(二) 基于Hierarchical Softmax的模型

    word2vec原理(一) CBOW与Skip-Gram模型基础     word2vec原理(二) 基于Hierarchical Softmax的模型     在word2vec原理(一) CBOW 与Skip-Gram模型基础中,我们讲到了使用神经网络的方法来得到词向量语言模型原理和一些问题,现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。 为了避免要计算所有词的softmax概率,word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。我们在上一节已经介绍了霍夫曼树的原理。如何映射呢? Hierarchical Softmax的模型源码和算法的对应         这里给出上面算法和word2vec源码中的变量对应关系。      以上就是基于Hierarchical Softmax的word2vec模型,下一篇我们讨论基于Negative Sampling的word2vec模型。  (欢迎转载,转载请注明出处。

    1.5K20发布于 2018-08-07
  • 来自专栏机器学习算法原理与实践

    word2vec原理(三) 基于Negative Sampling的模型

    word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling 的模型     在上一篇中我们讲到了基于Hierarchical Softmax的word2vec模型,本文我们我们再来看看另一种求解word2vec模型的方法:Negative Sampling。 Hierarchical Softmax的缺点与改进     在讲基于Negative Sampling的word2vec模型前,我们先看看Hierarchical Softmax的的缺点。 2. 基于Negative Sampling的模型概述 image.png 3. 基于Negative Sampling的模型梯度计算      image.png image.png 4.  在word2vec中,$M$取值默认为$10^8$。 5.  基于Negative Sampling的CBOW模型 image.png 6.  

    1.1K30发布于 2018-08-07
  • 来自专栏计算机工具

    ResNet 模型原理

    2、加速模型训练 由于Skip Connection允许信号直接传输到更深层次的下一层,而不必经过中间的层次,从而可以缩短神经网络的传输路径,加速信息的传输速度以及整个神经网络的训练速度。 3、提高模型的泛化能力 在一些深度神经网络的训练中,由于训练集与测试集的差异,造成了过拟合的现象。 作者通过实验:通过浅层网络+ y=x 等同映射构造深层模型,结果深层模型并没有比浅层网络有等同或更低的错误率,推断退化问题可能是因为深层的网络并不是那么好训练,也就是求解器很难去利用多层网络拟合同等函数 如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。那现在要解决的就是学习恒等映射函数了。 ResNet 模型原理 VGG 网络在特征表示上有极大的优势,但深度网络训练起来非常困难。

    55210编辑于 2024-12-14
  • 来自专栏开源心路

    chatGPT模型原理

    GPT-2 我们一般的 NLP 任务,文本分类模型就只能分类,分词模型就只能分词,机器翻译也就只能完成翻译这一件事,非常不灵活。 GPT-2 主要就是在 GPT 的基础上,又添加了多个任务,扩增了数据集和模型参数,又训练了一番。 GPT-3 大模型中的大模型 首先, GPT-3 的模型所采用的数据量之大,高达上万亿,模型参数量也十分巨大,学习之复杂,计算之繁复不说了。 这种引导学习的方式,在超大模型上展示了惊人的效果:只需要给出一个或者几个示范样例,模型就能照猫画虎地给出正确答案。注意啊,是超大模型才可以,一般几亿参数的大模型是不行的。 (我们这里没有小模型,只有大模型、超大模型、巨大模型) chatGPT chatGPT 模型上基本上和之前都没有太大变化,主要变化的是训练策略变了。

    42010编辑于 2023-06-30
  • 来自专栏ops技术分享

    redis原理2

    一致性哈希分区(Distributed Hash Table) 实现思路是为系统中每个节

    35500发布于 2021-05-18
  • 来自专栏后端从入门到精通

    Join原理(2)--连接原理(四十)

    Join,left join,right join(1)--连接原理(三十九) Join原理 明白了左连接还右连接内连接之后,下面介绍他的原理 嵌套循环连接(Nested-Loop join) 上篇文章我们说的其实就是嵌套循环查询方法 ,比如驱动表查出来3条数据,则被驱动表会吧三条数据全部一条条带入,比如t2.m1 = t1.m1,则会查询三次被驱动表,若链接了三个表,然后则第三个表又在前面表查询出来的基础上,插叙多次,这样一层层嵌套循环 使用索引加快连接速度 我们前面说过嵌套查询分为两个步骤,在回顾一下 步骤1:先查询驱动表的所有数据,结果若果有两条 步骤2:t2.m1 = 2 and t2.n1<’d’,t2.m2 = 3 and t2 如果在步骤2的时候全部都是全表查询,那将是对数据库的灾难,连接的表越多,查询的越多,这就是为什么经常用连接会导致sql性能差的原因。比如内连接,若不加限制条件,结果呈指数增长,这个结果类似。 Select * from t2 where t2.m1 = 2 and t2.n1<’d’ Select * from t2 where t2.m1 = 3 and t2.n1<’d’; 这时候如果我们给

    70520编辑于 2022-07-26
  • 来自专栏机器学习算法原理与实践

    word2vec原理(一) CBOW与Skip-Gram模型基础

        word2vec原理(一) CBOW与Skip-Gram模型基础     word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系 虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。 1. 一个很常见的方法是使用神经网络语言模型2. CBOW与Skip-Gram用于神经网络语言模型     在word2vec出现之前,已经有用神经网络DNN来用训练词向量进而处理词与词之间的关系了。 但是这和word2vec中用CBOW与Skip-Gram来训练模型与得到词向量的过程有很多的不同。     word2vec为什么 不用现成的DNN模型,要继续优化出新方法呢? 3. word2vec基础之霍夫曼树     word2vec也使用了CBOW与Skip-Gram来训练模型与得到词向量,但是并没有使用传统的DNN模型

    1.3K20发布于 2018-08-07
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    选择模型2

    选择模型 fd_set结构可以把多个套接字连在一起,形成一个套接字集合 typedef struct fd_set{ u_int fd_count;//下面数组的大小 SOCKET fd_array[FD_SETSIZE struct timeval{ long tv_sec;//指示等待多少秒 long tv_usec;//指示等待多少毫秒 }timeval; 应用举例 1 初始化fdSocket集合,添加监听套接字句柄 2 当有事件发生的时候,select函数移除fRead中没有未决IO操作的句柄,然后返回 3 比较原来的fdSocket集合,与select处理过的fdRead集合,确定哪些套接字有未决IO并处理这些IO 4 回到2进行选择 1 CInitSock theSock;//初始化winsock库 2 int main() 3 { 4 USHORT nPort=4567;//此服务器监听的端口号 5 / ); 15 return 0; 16 } 17 //进入监听模式 18 ::listen(sListen,5); 19 20 //select模型处理过程

    738100发布于 2018-01-17
  • 来自专栏落叶飞翔的蜗牛

    线程池原理2

    接上文线程池原理(1) 线程池的创建 通过ThreadPoolExecutor构造函数实现(推荐) ? 线程池原理 任务调度 任务调度是线程池的主要入口,当用户提交了一个任务,接下来这个任务将如何执行都是由这个阶段决定的。了解这部分就相当于了解了线程池的核心运行机制。 I/O 密集型任务(2N):这种任务应用起来,系统会用大部分的时间来处理 I/O 交互,而线程在处理 I/O 的时间段内不会占用 CPU 来处理,这时就可以将 CPU 交出给其它线程使用。 因此在 I/O 密集型任务的应用中,我们可以多配置一些线程,具体的计算方法是 2N。 如何判断是 CPU 密集任务还是 IO 密集任务?

    66610发布于 2021-03-19
  • 来自专栏NLP/KG

    大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

    大语言模型的预训练1:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍 S 1.大语言模型的预训练 1.LLM预训练的基本概念 预训练属于迁移学习的范畴。 1.3 LLM预训练的基本原理 大语言模型预训练采用了 Transformer 模型的解码器部分,由于没有编码器部分,大语言模型去掉了中间的与编码器交互的多头注意力层。 预训练后续阶段主要分为三个步骤(如下图所示): 图片 步骤 1:SFT 监督微调,训练监督策略模型。在大语言模型的训练过程中,需要标记者参与监督过程; 步骤 2:奖励模型训练。 这一部分的输出值 y2 可以表示为: $y2=Wx+b2$。W 和 b2 分别是这一部分的权重和偏置项。 =2;dmodel 表示词向量的维度,在这里 dmodel=512;2i 和 2i+1 表示奇偶性,i 表示词向量中的第几维,例如这里 dmodel=512,故 i=0,1,2…255。

    8.7K14编辑于 2023-07-17
  • 来自专栏机器学习入门

    【AI大模型】ChatGPT模型原理介绍(下)

    学习目标 了解ChatGPT的本质 了解GPT系列模型原理和区别 GPT-3介绍 2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are GPT-3 作为其先前语言模型 (LM) GPT-2 的继承者. 它被认为比GPT-2更好、更大. 目前基于ChatGPT的论文并没有公布, 因此接下来我们基于openai官网的介绍对其原理进行解析 2.1 ChatGPT原理 在介绍ChatGPT原理之前, 请大家先思考一个问题: “模型越大、参数越多 接下来, 将对每一步的细节进行详述. 2.4 监督调优模型 ​ ​ 工作原理: 第一步是收集数据, 以训练有监督的策略模型. 工作原理: 选择 prompt 列表, SFT 模型为每个 prompt 生成多个输出(4 到 9 之间的任意值) 标注者将输出从最佳到最差排序.

    64410编辑于 2024-09-18
  • DeepSeek模型原理、回答机制与模型因子

    本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 以下是DeepSeek的主要工作原理:预训练阶段undefinedDeepSeek通过大规模无监督学习,在海量文本数据上进行预训练。它采用自回归语言建模的方式,预测给定上下文中的下一个词。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性 通过对原理、回答机制和模型因子的深入分析,我们可以看到DeepSeek在多个方面的独特优势。未来,随着技术的不断进步,DeepSeek有望在更多应用场景中发挥更大的价值。

    2.5K10编辑于 2025-03-20
  • 来自专栏机器学习入门

    【AI大模型】ChatGPT模型原理介绍(上)

    学习目标 了解ChatGPT的本质 了解GPT系列模型原理和区别 什么是ChatGPT? 那么ChatGPT背后的实现原理是什么呢?接下来我们将给大家进行详细的解析. 在我们了解ChatGPT模型原理之前, 需要回顾下ChatGPT的成长史, 即我们需要对GPT-1、GPT-2、GPT-3等一系列模型进行了解和学习, 以便我们更好的理解ChatGPT的算法原理. GPT-2并没有对GPT-1的网络结构进行过多的创新与设计, 而是使用了更多的网络参数与更大的数据集: 最大模型共计48层, 参数量达15亿. ​ 3.1 GPT-2模型架构 在模型方面相对于 GPT- 综上, GPT-2的核心思想概括为: 任何有监督任务都是语言模型的一个子集, 当模型的容量非常大且数据量足够丰富时, 仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务. 3.3 GPT-2的数据集

    1.5K10编辑于 2024-09-18
  • Transformer 模型的工作原理

    Transformer 模型的工作原理 在人工智能里,Transformer 模型宛如一颗耀眼的巨星,自诞生起便光芒四射,引领着整个领域不断向前发展。 让我们一同深入探索Transformer模型的奇妙世界,感受其独特魅力。 一、Transformer 模型 Transformer 模型是一种深度学习架构,最初为自然语言处理(NLP)而设计,如今已广泛应用于其他领域,如计算机视觉。 自注意力机制在神经网络中的架构图 总结来说,自注意力机制让模型关注序列中的所有元素,不遗漏重要信息,且能捕捉不同位置间的依赖关系,为 Transformer 模型的优异表现奠定基础。 例如,传统模型需一千万参数达 85%性能,经优化的模型仅需三百万参数就能达 87%性能,用更少资源实现更好效果,降低了计算成本,使先进 AI 模型能在更多设备上部署应用。

    1K10编辑于 2025-06-13
  • 来自专栏机器学习算法原理与实践

    最大熵模型原理小结

    理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型原理做一个小结。 1. 熵和条件熵的回顾     在决策树算法原理(上)一文中,我们已经讲到了熵和条件熵的概念,这里我们对它们做一个简单的回顾。     熵度量了事物的不确定性,越不确定的事物,它的熵就越大。 2. 最大熵模型的定义     最大熵模型假设分类模型是一个条件概率分布$P(Y|X)$,X为特征,Y为输出。      给定一个训练集${(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}), ... ,(x^{(m)},y^{(m)})}$,其中x为n维特征向量,y为类别输出。 这样我们就得到了最大熵模型的定义如下:     假设满足所有约束条件的模型集合为: $$E_{\overline{P}}(f_i) = E_{P}(f_i) (i=1,2,...M)$$      定义在条件概率分布

    83110发布于 2018-08-14
领券