搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

大模型、小模型、参数量
## 几个概念总参数量 = 词嵌入层参数 + 解码器层参数小模型就是在参数量上显著小于LLM的模型所有参数都放在 safttensors 模型文件中预训练就是为了生成合理的参数值后训练也是为了生成合理的参数值蒸馏、微调、强化学习，都是后训练大模型变成小模型采用"蒸馏+量化+剪枝"的组合策略一、大模型 GPT-3 参数量详解大模型的参数量是指神经网络中所有可训练权重和偏置的总数，这些参数决定了模型的学习能力和表达能力 num_heads)32前馈网络维度 (d_ff)8×dmodel=163848 \times d_{model} = 163848×dmodel=163841. 三、大模型、小模型参数差距的本质大模型的参数量，本质上是用 dmodel2d_{model}^2dmodel2 的代价，换取高维语义空间的表达能力。所以，本篇理解小模型，下篇学习小模型建模或小模型训练。
55021编辑于 2026-01-04
来自专栏Python与算法之美
8，模型的训练
根据问题特点选择适当的估计器estimater模型：分类(SVC,KNN,LR,NaiveBayes,...) 回归(Lasso,ElasticNet,SVR,...) 一，分类模型的训练 ? ? ? ? ? ? ? ? ? 二，回归模型的训练 ? ? ? ? ? ? ? ? 三，聚类模型的训练 KMeans算法的基本思想如下：随机选择K个点作为初始质心 While 簇发生变化或小于最大迭代次数：将每个点指派到最近的质心，形成K个簇重新计算每个簇的质心 ? 四，降维模型的训练 PCA主成分分析(Principal Components Analysis)是最常使用的降维算法，其基本思想如下：将原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。 ?
82031发布于 2020-07-17
来自专栏CnPengDev
小程序 | 8-wxml
-- 二维数组 --> <block wx:for='{{[[1,2,3],[4,5,6],[7,<em>8</em>,9]]}}'> <block wx:for="{{item}}" wx:for-item=" 提示说，我们要设置 wx:key 从而提升性能——主要提升的是<em>小</em>程序底层的虚拟 DOM 的性能。
94720发布于 2021-05-17
来自专栏全栈程序员必看
C# 8小特性
对于C# 8，有吸引了大多数注意力的重大特性，如默认接口方法和可空引用，也有许多小特性被考虑在内。本文将介绍几例可能加入C#未来版本的小特性。 \\ 查看英文原文：C# 8 Small Features 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/101402.html原文链接：https://javaforall.cn
53910编辑于 2022-06-29
来自专栏软件测试技术
8个Python小技巧
isinstance 函数可用于判断实例的类型，其实它的第二个参数可以是多个数据类型组成的元组
44820编辑于 2022-05-16
来自专栏机器之心
小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大
(1) 数学我们使用Arithmetic(5-shot)数据集评估模型的算数能力，使用GSM8K(4-shot)和MATH(4-shot)评估模型的通用数学能力。 (3) 双语能力我们使用Flores-101(8-shot)中的zh-en部分评估双语或者多语模型在中英文上的对齐能力。领域应用为了展示小模型在具体领域应用的效果，我们采用了在金融和法律两个公开数据集来做出验证。从结果中可以观察到，模型的参数大小对领域性能有一定影响，但表现并不明显。 MindLLM的性能在领域应用内超越了其它同等规模的模型，并且与更大的模型有可比性。进一步证明了小模型在领域应用落地有极大潜力。金融领域在该领域，对金融数据进行情绪感知分类任务。同时，与更大规模的模型相比，它们能够以更快的训练速度和更少的训练资源取得相当的成绩。基于以上分析，我们认为小模型仍然具有极大的潜力。
1.6K20编辑于 2023-10-29
来自专栏喔家ArchiSelf
解读小模型——SLM
与大模型相比，SLM是一种简化的、高效的语言模型，参数数量减少，总体规模较小。SLM中的“小”表示与大型语言模型相比，参数数量和模型的总体大小都减少了。虽然大模型可能有数十亿甚至数万亿个参数，但 SLM 通常只有几百万到几亿个参数。然而，什么是“小”可以根据场景和语言建模的当前技术状态而变化。随着近年来模型规模呈指数级增长，曾经被认为是大模型的东西现在可能被认为是小模型。GPT-2就是一个很好的例子。 2. 为什么参数的数量很重要？尽管它的尺寸较小，但是它可以与更大的模型竞争，比如 Mixtral 8x7B 和 GPT-3.5，在 MMLU (一个语言理解基准)和MT-bench(一个机器翻译基准)上分别取得了可观的69% 和8.38 它可以是从2到8的任何范围，表明中间层的大小在不同的模型之间变化。研究观察了的有趣模式。下面图提供了从2022年到2024年不同前馈网络中间比率的趋势变化。
1.2K10编辑于 2024-12-02
来自专栏数据科学学习手札
8条github使用小技巧
github为了使得其使用更加便捷，时常推出一些实用的功能，今天我们就来学习其中方便我们日常编写markdown文档、创建issues等操作的几则小技巧。 2 github日常使用小技巧 2.1 在markdown中绘制在线地图 github支持使用markdown编写的文档或内容中利用特殊的语法插入geoJSON或topoJSON数据，从而直接渲染交互式在线地图快捷生成引用块、有序列表及无序列表　　选中目标内容后，按下快捷键ctrl+shift+.可以快速生成引用块；按下快捷键ctrl+shift+7可以快速生成有序列表；按下快捷键ctrl+shift+8可以快速生成无序列表
55120编辑于 2022-05-30
来自专栏LinkinStar's Blog
k8s 小技巧
本博客持续更新…用于记录 k8s 使用过程中的很多的小技巧，也希望你能提供更多的小技巧来~ 图形化管理工具 lens 图形化 k8s 管理工具: https://github.com/lensapp/
54120编辑于 2022-09-01
来自专栏个人路线
小程序的生命周期【小程序专题8】
小程序的生命周期 App({ /** * 当小程序初始化完成时，会触发 onLaunch（全局只触发一次） */ onLaunch: function () { }, /** * 当小程序从前台进入后台，会触发 onHide （应用进入后台） */ onHide: function () { }, /** * 当小程序发生脚本错误 onLaunch function 否生命周期回调——监听小程序初始化。 ?onShow function 否生命周期回调——监听小程序启动或切前台。 ? onHide function 否生命周期回调——监听小程序切后台。 ?onError function 否错误监听函数。 ? 2.2.3 小程序页面生命周期 data data 是页面第一次渲染使用的初始数据。
95510编辑于 2021-12-08
来自专栏JusterZhu
极客说｜微软 Phi 系列小模型和多模态小模型
在这样的背景下，小模型（Small Language Models, SLMs）的研究就显得非常重要。小模型以其相对较小的规模和较低的计算算力需求，为资源有限的端侧设备环境提供了一种可行的解决方案。微软在小模型方面也持续进行了很长时间的研究，推出了 Phi 系列模型，证明了即使在较小的模型规模下，也能够实现强大的语言理解能力，生成能力，和多模态理解能力。，词汇表大小也拓展到了 100352，默认上下文长度是 8K，模型也有分组查询注意力机制（Group Query Attention，GQA），模型的数据训练量达到了 4.8万亿 tokens。 PC 上用 Phi-3-visio 进行轿车司机是否系安全带的图像问答测试 Phi-3.5 系列 Phi-3.5 系列小模型是最新一代的 Phi 系列小模型，该系列包括了 Phi-3.5-mini、Phi _5-vision-instruct --use_flash_attn false 推理模型运行起来之后，如图8所示。
66400编辑于 2025-01-23
来自专栏机器之心
TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品
在形式上，通过最小化以下目标函数，student 模型可以获取 teacher 模型的知识： ? 通过以上几个蒸馏目标函数（即方程式 7、8、9 和 10），可以整合 teacher 和 student 网络之间对应层的蒸馏损失： ? 实验结果表明：1）TinyBERT 在所有 GlUE 任务中的表现都优于 BERTSMALL，平均性能提升了 6.3%，表明本文提出的 KD 学习框架可以有效地提升小模型在下游任务中的性能；2）TinyBERT 5）对于具有挑战性的 CoLA 数据集，所有的蒸馏小模型与 teacher 模型的性能差距都比较大。模型大小的影响为了测试模型大小对性能的影响，研究者在几个典型的 GLUE 任务中测试了不同大小 TinyBERT 模型的性能。结果如下表 4 所示： ?
1.4K10发布于 2019-10-08
来自专栏云云众生s
小语言模型的崛起
随着语言模型不断进步，变得功能更多元、能力更强大，变“小”似乎是更佳的方向。译自 The Rise of Small Language Models，作者 Kimberley Mok。小语言模型与 LLM 的比较这些问题可能是近期兴起的小语言模型或 SLM 的诸多原因之一。小语言模型本质上是 LLM 的更精简版本，就神经网络的大小和更简单的架构而言。总之，小语言模型的出现标志着一种潜在的转变，即从昂贵且资源密集的 LLM 向更简化和高效的语言模型转变，可以说这使更多企业和组织采用并定制生成式 AI 技术来满足其特定需求变得更容易。随着语言模型发展得更加通用和强大，选择“小”似乎是最好的方式。
39810编辑于 2024-03-28
来自专栏YOLO大作战
YOLOv8小目标检测介绍
Yolo小目标检测，独家首发创新（原创），适用于Yolov5、Yolov7、Yolov8等各个Yolo系列，专栏文章提供每一步步骤和源码，带你轻松实现小目标检测涨点重点：通过本专栏的阅读，后续你可以结合自己的小目标检测数据集，通常更倾向于使用相对于原图的比例来定义：物体标注框的长宽乘积，除以整个图像的长宽乘积，再开根号，如果结果小于3%，就称之为小目标； 1.2 难点 1）包含小目标的样本数量较少，这样潜在的让目标检测模型更关注中大目标的检测； 2）由小目标覆盖的区域更小，这样小目标的位置会缺少多样性。本专栏小目标数据集数据集下载地址： Single-frame InfraRed Small Target 数据集大小：427张，进行3倍数据增强得到1708张，最终训练集验证集测试集随机分配为8：1 ：1 目录 1.小目标检测介绍 1.1 小目标定义 1.2 难点 2.
6.7K20编辑于 2023-11-11
来自专栏学习笔记ol
小谈设计模式（8）—代理模式
小谈设计模式（8）—代理模式专栏介绍主要对目前市面上常见的23种设计模式进行逐一分析和总结，希望有兴趣的小伙伴们可以看一下，会持续更新的。希望各位可以监督我，我们一起学习进步，加油，各位。
35920编辑于 2023-10-11
来自专栏Java编程技术
K8s网络模型
每个Pod自己看到的自己的ip和其他Pod看到的一致 k8s网络模型设计基础原则:每个Pod都拥有一个独立的 IP地址，而且假定所有 Pod 都在一个可以直接连通的、扁平的网络空间中。由于 Kubemetes 的网络模型假设 Pod 之间访问时使用的是对方 Pod 的实际地址，所以一个 Pod 内部的应用程序看到的自己的 IP 地址和端口与集群内其他 Pod 看到的一样。其实是使用Docker的一种网络模型：–net=container container模式指定新创建的Docker容器和已经存在的一个容器共享一个网络命名空间，而不是和宿主机共享。网络模型需要每个pod必须通过ip地址可以进行访问，每个pod的ip地址总是对网络中的其他pod可见，并且每个pod看待自己的ip与别的pod看待的是一样的（虽然他没规定如何实现），下面我们看不同Node 24 = 16,777,216（一千多万），一般每个 VNI 对应一个租户，也就是说使用 vxlan 搭建的公有云可以理论上可以支撑千万级别的租户 Tunnel：隧道是一个逻辑上的概念，在 vxlan 模型中并没有具体的物理实体想对应
4.2K24发布于 2019-04-18
来自专栏csico
K8s网络模型
Docker网络模型容器容器不是模拟一个完整的操作系统，而是对进程进行隔离，对容器里的进程来说它接触到的各种资源都是独享的，比虚拟机启动快、占用资源少。但是容器重启后又恢复原值，若想永久的修改可通过/etc/docker/daemon.conf里制定dns，/etc/hosts记录容器的ip，/etc/hostname记录容器的名称 Calico网络模型 K8s网络模型 K8s术语 K8S 是一个用于容器集群的分布式系统架构。 K8s网络 K8s网络包括CNI、Service、Ingress、DNS 在K8s网络模型中，每个节点上的容器都有自己独立的IP段，节点之间的IP段不能重复，而节点也需要具备路由能力，使从本节点Pod里出来的流量可以根据目的 K8s主机内网络模型 K8s采用的是veth pair+bridge的模式，veth pair将容器与主机的网络协议栈连接起来，可以使pod之间通信。
2.5K32发布于 2021-09-02
来自专栏AI掘金志
大模型+小模型，AI 产品的新沸点
“2小时训练出的算法模型，能对抗「碎片化」的AIoT吗？” 作者 | 辛夷编辑 | 余快大模型，带来了AI 2.0，也带来了无限可能。大模型+小模型，未来之声软件开发是人类历史上最复杂的脑力协作。这是软件工程领域的一个共识。而大模型这个“超级队员”的到来，将创造新的模型研发范式。首先，是开发方式的改革。大模型“海纳百川”的魅力纵然令人着迷，但大模型就像是雷神之锤，如果没有适合它的钉子，就难以发挥被期许的价值。短期看，大模型转化成生产力，还有一段距离。短期内，大小模型将以“组合拳”形式存在，大小模型各司其职，云边协同发展，实现落地应用。一方面，通用大模型可以通过预训练+微调，产生行业专用大模型。另一方面大模型通过蒸馏、量化等方式，变成边侧易部署&升级的“小模型”，满足客户追求性价比的需求。
80310编辑于 2023-10-25
来自专栏chatgpt小智AI
chatgpt语言模型|小智ai
ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨开源AI平台简介： ChatGPT是一种智能语言模型，它使用先进的人工智能技术，能够进行自然语言的交互式对话正文： ChatGPT的工作原理： ChatGPT基于生成式模型，它由一个庞大的神经网络组成，能够根据输入的文本生成相应的回复。通过深度学习算法，模型可以从这些数据中学习到语法、语义和上下文的相关信息，从而能够产生准确、连贯的回复。应用场景： ChatGPT在多个领域都有广泛的应用。结论： ChatGPT作为一种智能语言模型，代表了人工智能技术在人机对话领域的重要进展。它的出现为人机交互带来了更大的便利和效率，并且在多个领域展现出巨大的潜力。
47120编辑于 2023-05-12
来自专栏前端javascript
大模型+图片生成+小程序
⭐ 背景大家好，我是yma16，这篇文章给大家分享大模型+图片生成的功能，完全免费。由于前两天我参加了掘金coze的一个线下活动，获得了一个内部调用api的机会，于是我就接入了小程序。实现的效果小程序地址，点击图片跳转提示词：宫崎骏风格的天空提示词：画一只老虎提示词：一个写代码的女孩实现的逻辑在coze编排一个作画的工作流工作流配置发布勾选api node_koa ctx.body = { code: 0, msg: r } } }); module.exports = router; 小程序对话实现
96911编辑于 2024-04-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型、小模型、参数量

8，模型的训练

小程序 | 8-wxml

C# 8小特性

8个Python小技巧

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

解读小模型——SLM

8条github使用小技巧

k8s 小技巧

小程序的生命周期【小程序专题8】

极客说｜微软 Phi 系列小模型和多模态小模型

TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品

小语言模型的崛起

YOLOv8小目标检测介绍

小谈设计模式（8）—代理模式

K8s网络模型

K8s网络模型

大模型+小模型，AI 产品的新沸点

chatgpt语言模型|小智ai

大模型+图片生成+小程序

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐