搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏啄木鸟软件测试
多模态大模型技术原理及实战(6)
中小型公司大模型构建之路如何选择自己建立二次开发重新训练，消耗非常巨大现有的大模型体系已经非常丰富对话大模型已经白热化 •三天产生一个小应用 •两天产生一个新模型中小公司的技术实力相对薄微调用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer，ZeRO） •优化器状态分区(ZeRO-1） •梯度分区 (ZeRO-2） •参数分区(ZeRO-3) 压缩剪枝剪枝技术通过理结果产生重要影响，需要剔除冗余参数以提高模型训练效率步骤 •1、训练一个原始模型，该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小，并将其设置为零。 •4、评估模型的大小、速度和效果等指标，如果不符合要求，那么继续进行剪枝操作直至满意为止。
29810编辑于 2024-09-10
来自专栏计算机工具
ResNet 模型原理
3、提高模型的泛化能力在一些深度神经网络的训练中，由于训练集与测试集的差异，造成了过拟合的现象。作者通过实验：通过浅层网络+ y=x 等同映射构造深层模型，结果深层模型并没有比浅层网络有等同或更低的错误率，推断退化问题可能是因为深层的网络并不是那么好训练，也就是求解器很难去利用多层网络拟合同等函数如果深层网络的后面那些层是恒等映射，那么模型就退化为一个浅层网络。那现在要解决的就是学习恒等映射函数了。 ResNet 模型原理 VGG 网络在特征表示上有极大的优势，但深度网络训练起来非常困难。 , conv5_x）；（3）最后数据经过一个平均池化（avgpool）和全连接层（fc）输出得到结果；中间卷积部分主要是下图中的蓝框部分，红框部分中的 [2, 2, 2, 2] 和 [3, 4, 6,
55210编辑于 2024-12-14
来自专栏开源心路
chatGPT模型原理
简介 openai 的 GPT 大模型的发展历程。 GPT-2 我们一般的 NLP 任务，文本分类模型就只能分类，分词模型就只能分词，机器翻译也就只能完成翻译这一件事，非常不灵活。 GPT-3 大模型中的大模型首先， GPT-3 的模型所采用的数据量之大，高达上万亿，模型参数量也十分巨大，学习之复杂，计算之繁复不说了。这种引导学习的方式，在超大模型上展示了惊人的效果：只需要给出一个或者几个示范样例，模型就能照猫画虎地给出正确答案。注意啊，是超大模型才可以，一般几亿参数的大模型是不行的。（我们这里没有小模型，只有大模型、超大模型、巨大模型） chatGPT chatGPT 模型上基本上和之前都没有太大变化，主要变化的是训练策略变了。
42010编辑于 2023-06-30
来自专栏ops技术分享
Nginx结构原理全解析（6）
首先，请求过来，要建立连接，然后再接收数据，接收数据后，再发送数据。具体到系统底层，就是读写事件，而当读写事件没有准备好时，必然不可操作，如果不用非阻塞的方式来调用，那就得阻塞调用了，事件没有准备好，那就只能等了，等事件准备好了，你再继续吧。
36520发布于 2021-05-11
来自专栏存储内核技术交流
redis 6多线程模型
redis 多线程架构 redis6之前的版本一直单线程方式解析命令、处理命令，这样的模式实现起来简单，但是无法使用多核CPU的优势，无法达到性能的极致；到了redis 6，redis6采用多线程模式来来读取和解析命令，但是命令的执行依然通过队列由主线程串行执行，多线程的好处是分离了命令的解析和命令执行，命令的解析有独立的IO线程进行，命令执行依旧有main线程执行,多线程增加了代码的复杂度开启多线程模型 Redis.conf readQueryFromClient->processInputBuffer->processCommandAndResetClient->processCommand->call } } } //多线程模型初始化
59520编辑于 2022-08-17
来自专栏第一专栏
编译原理4—6章案例复习总结【编译原理】
4—6章总结 4、自上而下文法—LL（1）文法（1）first集（2）follow集 ——利用到select集（3）select集 ——利用到first、select集合（4）构造自上而下分析表（5）句子分析—利用LL（1）分析表，注意倒序入栈—符号栈是将表中查询到的产生式倒着写入，栈内只剩下 # 为止 5、规范推导—移进规约法—直接利用推导式规约，顺序入栈，栈内只剩下第一个非终结符S为止 6、
1.8K20编辑于 2023-05-25
来自专栏NLP/KG
大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
大语言模型的预训练1:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍 S 1.大语言模型的预训练 1.LLM预训练的基本概念预训练属于迁移学习的范畴。大语言模型的预训练是指搭建一个大的神经网络模型并喂入海量的数据以某种方法去训练语言模型。大语言模型预训练的主要特点是训练语言模型所用的数据量够多、模型够大。 1.3 LLM预训练的基本原理大语言模型预训练采用了 Transformer 模型的解码器部分，由于没有编码器部分，大语言模型去掉了中间的与编码器交互的多头注意力层。编码组件由多层编码器（Encoder）组成（在此处使用了 6 层编码器）。解码组件也是由相同层数的解码器（Decoder）组成（在此处使用了 6 层）。然后经过 Add＆Normalize，输入下一个 encoder 中，经过 6 个 encoder 后输入到 decoder。
8.7K14编辑于 2023-07-17
来自专栏机器学习入门
【AI大模型】ChatGPT模型原理介绍（下）
学习目标了解ChatGPT的本质了解GPT系列模型的原理和区别 GPT-3介绍 2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are 目前基于ChatGPT的论文并没有公布, 因此接下来我们基于openai官网的介绍对其原理进行解析 2.1 ChatGPT原理在介绍ChatGPT原理之前, 请大家先思考一个问题: “模型越大、参数越多接下来, 将对每一步的细节进行详述. 2.4 监督调优模型工作原理: 第一步是收集数据, 以训练有监督的策略模型. 工作原理: 选择 prompt 列表, SFT 模型为每个 prompt 生成多个输出（4 到 9 之间的任意值）标注者将输出从最佳到最差排序. 模型选择: RM模型是GPT-3的蒸馏版本（参数量为6亿）, 目的是通过该训练模型得到一个预测值（得分）, 模型损失函数为下图表示: 公式参数解析: x代表prompt原始输入, yw代表
64410编辑于 2024-09-18
DeepSeek模型：原理、回答机制与模型因子
本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子，并通过表格和流程图的形式进行对比分析。一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型，其核心设计借鉴了GPT系列模型的成功经验，同时在训练数据、模型架构和优化策略上进行了创新。以下是DeepSeek的主要工作原理：预训练阶段undefinedDeepSeek通过大规模无监督学习，在海量文本数据上进行预训练。它采用自回归语言建模的方式，预测给定上下文中的下一个词。五、DeepSeek原理的流程图表以下是一个简化版的DeepSeek工作流程图，展示了从输入到输出的核心步骤：+-------------------+ +----------------- 通过对原理、回答机制和模型因子的深入分析，我们可以看到DeepSeek在多个方面的独特优势。未来，随着技术的不断进步，DeepSeek有望在更多应用场景中发挥更大的价值。
2.5K10编辑于 2025-03-20
来自专栏哆哆Excel
Thinkphp6（6）模型学习与知识总结（二）
Thinkphp6（6）模型学习与知识总结（二）上一次学习了模型，对模型有一点小认识，今天再来学习一下，我一开始是没有想到要学习模型，原因是CURD（增删改查）中很多可以用Db类在控制器中完成，其实模型有很多好东西的 COMMENT '删除时间', PRIMARY KEY (id) ) ENGINE=InnoDB AUTO_INCREMENT=15 DEFAULT CHARSET=utf8; 二、再建立一个模型位字符型的数字以方便测试用的 public function numStr($num) { static $seed = array(0,1,2,3,4,5,6,7,8,9 第一步，你要在数据表中有一个字段是delete_time, 第二步要在模型中引入类：use think\model\concern\SoftDelete;，第三步在模型中开启//开了软删除功能，这也是模型类的好处哦
1.2K30编辑于 2022-10-25
来自专栏机器学习入门
【AI大模型】ChatGPT模型原理介绍（上）
学习目标了解ChatGPT的本质了解GPT系列模型的原理和区别什么是ChatGPT？那么ChatGPT背后的实现原理是什么呢？接下来我们将给大家进行详细的解析. 在我们了解ChatGPT模型原理之前, 需要回顾下ChatGPT的成长史, 即我们需要对GPT-1、GPT-2、GPT-3等一系列模型进行了解和学习, 以便我们更好的理解ChatGPT的算法原理. GPT-1介绍 2018年6月, OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block. 2.2 GPT-1训练过程 GPT
1.5K10编辑于 2024-09-18
Transformer 模型的工作原理
Transformer 模型的工作原理在人工智能里，Transformer 模型宛如一颗耀眼的巨星，自诞生起便光芒四射，引领着整个领域不断向前发展。让我们一同深入探索Transformer模型的奇妙世界，感受其独特魅力。一、Transformer 模型 Transformer 模型是一种深度学习架构，最初为自然语言处理（NLP）而设计，如今已广泛应用于其他领域，如计算机视觉。自注意力机制在神经网络中的架构图总结来说，自注意力机制让模型关注序列中的所有元素，不遗漏重要信息，且能捕捉不同位置间的依赖关系，为 Transformer 模型的优异表现奠定基础。例如，传统模型需一千万参数达 85%性能，经优化的模型仅需三百万参数就能达 87%性能，用更少资源实现更好效果，降低了计算成本，使先进 AI 模型能在更多设备上部署应用。
1K10编辑于 2025-06-13
来自专栏机器学习算法原理与实践
最大熵模型原理小结
理解了最大熵模型，对逻辑回归，支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。 1. 熵和条件熵的回顾　　　　在决策树算法原理(上)一文中，我们已经讲到了熵和条件熵的概念，这里我们对它们做一个简单的回顾。　　　　熵度量了事物的不确定性，越不确定的事物，它的熵就越大。最大熵模型的定义　　　　最大熵模型假设分类模型是一个条件概率分布$P(Y|X)$,X为特征，Y为输出。　　　　最大熵模型损失函数的优化　　　　在上一节我们已经得到了最大熵模型的函数$H(P)$。惯例，我们总结下最大熵模型作为分类方法的优缺点：　　　　最大熵模型的优点有：　　　　a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。　　　　
83110发布于 2018-08-14
来自专栏云数据库技术
大语言模型技术原理
除了自然语言本身的优势外，语境的上下文学习能力、迁移学习和文字总结能力也有很大的发挥空间，带着这些思考，我们有必要了解一下大语言模型背后的发展及其技术原理。 InstructGPT模型的参数为1.3B，而GPT-3模型的参数为175B，约为InstructGPT模型的130倍，但InstructGPT模型的输出却优于GPT-3模型的输出。编码组件和解码组件可以有很多层，比如Google刚提出时的论文用的是6层，后面GPT-1是12层，然后到GPT-3是96层。 Self-Attention 原理之前说Transformer的自注意机制突破了文本关注距离的限制，因此非常关键。 PPO 算法已经存在了相对较长的时间，有大量关于其原理的指南，因而成为 RLHF 中的有利选择。我们将微调任务表述为 RL 问题。
2.3K45编辑于 2023-05-30
来自专栏大模型成长之路
【大模型学习 | BLIP原理】
此外，目前广泛采用的数据集仍存在大量文本噪声，进一步限制了模型的性能提升。一、预训练方法 1.1 图像文本模型图像特征提取模型：VIT 文本特征提取模型：Unimodal encoder; Image-grounded text encoder; Image-grounded 为了提升模型对跨模态语义的建模能力，Cross-Attention 被加入到 SA 与 FFN 之间，作为一种跨模态交互机制。这是因为生成任务要求模型按序预测每一个词，不能访问未来的信息。Causal attention 能保证自回归生成的正确性，使模型适合用作 decoder，实现图像到文本的自然语言生成。最后组成一个新的数据集预训练模型。
1K10编辑于 2025-07-01
来自专栏Netty应用与源码
Netty源码—6.ByteBuf原理一
大纲1.关于ByteBuf的问题整理2.ByteBuf结构以及重要API3.ByteBuf的分类4.ByteBuf分类的补充说明5.ByteBuf的主要内容分三大方面6.内存分配器ByteBufAllocator7 通过一个PoolThreadCache对象将线程和PoolArena进行一一绑定(利用ThreadLocal原理)。默认一个线程对应一个PoolArena，这样就能做到多线程内存分配相互不受影响。 UnpooledHeapByteBuf的实现原理比PooledHeapByteBuf简单，不容易出现内存管理方面的问题，满足性能下推荐UnpooledHeapByteBuf。 5.ByteBuf的主要内容分三大方面一.内存与内存分配器的抽象二.不同规格大小和不同类别的内存的分配策略三.内存的回收过程6.内存分配器ByteBufAllocator(1)ByteBufAllocator
34200编辑于 2025-06-10
来自专栏一个会写诗的程序员的博客
6.HashMap 的扩容 resize() 原理
6.HashMap 的扩容 resize() 原理我们先来上一段测试代码,直观感受一下 HashMap 的真实的扩容过程: package i import java.util.* /** capacity=8 size=4 {a=1, ab=12, b=2, c=3} capacity=8 size=5 {a=1, ab=12, bc=23, b=2, c=3} capacity=8 size=6
1K30发布于 2020-03-24
来自专栏XC's Blog 日常笔记
ES6-Promise语法与原理
Promise工作原理 3.1 Promise是什么? 是ES6新增的构造函数 3.2 Promise作用: 解决回调地狱 3.3 Promise应用场景/原理 Promise对象有三种状态: pending 进行中(默认状态) 所以一旦创建Promise Promise状态发生改变后在任何时候都可以获取结果 Promise实例的then方法获取成功结果 Promise实例的catch方法获取失败结果 6. 了解axios底层原理/手写Promise封装xhr 7.1 以前使用的axios axios.get('http://123.57.109.30:3999/api/categoryfirst').then (res => { console.log(res.data) }) 7.2 axios底层原理 axios其实就是把xhr对象包装在Promise里面 axios方法本质是返回一个Promise
35510编辑于 2024-08-24
来自专栏瓜农老梁
Reactor线程模型【原理笔记】
前言 Reactor模型是基于事件驱动的线程模型，可以分为Reactor单线程模型、Reactor多线程模型、主从Reactor多线程模型，通常基于在I/O多路复用实现。一、Reactor单线程模型 1、原理图示在Reactor单线程模型中，操作在同一个Reactor线程中完成。根据事件的不同类型，由Dispatcher将事件转发到不同的角色中处理。二、Reactor多线程模型 1、原理图示在Reactor多线程模型中。根据事件的不同类型，由Dispatcher将事件转发到不同的角色中处理。三、主从Reactor多线程模型 1、原理图示 Reactor多线程模型，由Acceptor接受客户端连接请求后，创建SocketChannel注册到Main-Reactor线程池中某个线程的Select
3.3K10发布于 2020-06-19
来自专栏coding for love
CSS入门6-盒模型
各执一词的W3C标准盒模型与IE盒模型设想你是一位快递运输员，需要在你的货车撞上需要运输的货物。我们来看一下两种盒模型的详细说明。 2.1 W3C标准盒模型 ? 标准盒模型更为方便。参考深入理解盒模型 CSS 盒子模型 css 盒子模型理解想要清晰的明白（一）： CSS视觉格式化模型|盒模型|定位方案|BFC CSS 布局_1 盒模型学会使用box-sizing布局 box-sizing 盒子模型
79610发布于 2018-08-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

多模态大模型技术原理及实战(6)

ResNet 模型原理

chatGPT模型原理

Nginx结构原理全解析（6）

redis 6多线程模型

编译原理4—6章案例复习总结【编译原理】

大语言模型的预训练:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

【AI大模型】ChatGPT模型原理介绍（下）

DeepSeek模型：原理、回答机制与模型因子

Thinkphp6（6）模型学习与知识总结（二）

【AI大模型】ChatGPT模型原理介绍（上）

Transformer 模型的工作原理

最大熵模型原理小结

大语言模型技术原理

【大模型学习 | BLIP原理】

Netty源码—6.ByteBuf原理一

6.HashMap 的扩容 resize() 原理

ES6-Promise语法与原理

Reactor线程模型【原理笔记】

CSS入门6-盒模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐