搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试
机器之心 & ArXiv Weekly 参与：杜伟、楚航、罗若天本周论文包括2D 图像脑补 3D 人体；亚马逊发布超越 GPT 3.5 的小模型等研究。推荐：超越 GPT 3.5 的小模型来了！论文 4：Is ChatGPT a General-Purpose Natural Language Processing Task Solver? 然而，所有模型都存在固有的局限性，往往只能通过进一步扩展来部分解决。具体来讲，模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。解决这些问题的一种简单方法就是给模型配备外部工具，如搜索引擎、计算器或日历。然而，现有方法通常依赖于大量的人工注释，或将工具的使用限制在特定的任务设置下，使得语言模型与外部工具的结合使用难以推广。论文 7：AudioLDM: Text-to-Audio Generation with Latent Diffusion Models 作者：Haohe Liu 等论文地址：https://arxiv.org
61520编辑于 2023-02-23
来自专栏学习笔记持续记录中...
处理模型数据（7）
Spring MVC提供了以下几种途径输出模型数据： ModelAndView 控制器处理方法的返回值是ModelAndView，则其既包含视图信息，也包含模型数据信息 // success.jsp 返回的目标页面 ; return modelAndView; } } Map&Model Spring MVC 在内部使用了一个org.springframework.ui.Model接口存储模型数据，具体步骤： 1）SpringMVC在调用方法前会创建一个隐含的数据模型，作为模型数据的存储容器，成为”隐含模型” 2）如果方法的入参类型为Map或Model，会将隐含模型的引用传递给这些入参。 3）在方法体内，可以通过这个入参对象访问到模型中的所有数据，也可以向模型中添加新的属性数据 Spring Web MVC 提供Model、Map或ModelMap让我们能去暴露渲染视图需要的模型数据。 @SessionAttributes 除了可以通过属性名指定需要放到会话中的属性处，还可以通过模型属性的对象类型指定哪些模型属性需要放到会话中 @SessionAttributes(types=User.class
50400发布于 2020-03-18
来自专栏为了不折腾而去折腾的那些事
使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B
之前云栖大会上说要写几篇 Qwen 相关的实践，一直没有时间，趁着今天出行前的空档，分享一篇之前使用小模型的经验。简单好用的 AI 流水线本篇文章使用的模型是千问 2.5 版本的 7B 模型的官方量化版：Qwen2.5-7B-Instruct-GPTQ-Int4，因为我们要处理的数据任务非常简单，追求效率第一，所以即使使用较小参数量的模型模型下载你可以从你喜欢的社区，来快速下载本文中使用的模型，或者替换为你觉得不错的其他模型： •魔搭：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4[5]•HuggingFace: pytorch:2.4.0-cuda12.1-cudnn9-runtime bash 执行下面的命令，来到工作目录： cd /models VLLM 因为我们要处理大量数据，所以数据的处理效率非常关键，除了选择小模型之外将启动好的服务，配置到 Dify 模型中我使用的是 7B 模型，官方模型的 config.json 和文档中有上下文和 Max Tokens 的参数，填写进来即可。
1.1K10编辑于 2024-10-08
大模型、小模型、参数量
## 几个概念总参数量 = 词嵌入层参数 + 解码器层参数小模型就是在参数量上显著小于LLM的模型所有参数都放在 safttensors 模型文件中预训练就是为了生成合理的参数值后训练也是为了生成合理的参数值蒸馏、微调、强化学习，都是后训练大模型变成小模型采用"蒸馏+量化+剪枝"的组合策略一、大模型 GPT-3 参数量详解大模型的参数量是指神经网络中所有可训练权重和偏置的总数，这些参数决定了模型的学习能力和表达能力三、大模型、小模型参数差距的本质大模型的参数量，本质上是用 dmodel2d_{model}^2dmodel2 的代价，换取高维语义空间的表达能力。四、为什么对小模型感兴趣以前，我们用Java+DB开发应用，用C+RTOS开发嵌入式软件。所以，本篇理解小模型，下篇学习小模型建模或小模型训练。
54921编辑于 2026-01-04
来自专栏为了不折腾而去折腾的那些事
使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B
之前云栖大会上说要写几篇 Qwen 相关的实践，一直没有时间，趁着今天出行前的空档，分享一篇之前使用小模型的经验。本篇文章使用的模型是千问 2.5 版本的 7B 模型的官方量化版：Qwen2.5-7B-Instruct-GPTQ-Int4，因为我们要处理的数据任务非常简单，追求效率第一，所以即使使用较小参数量的模型模型下载你可以从你喜欢的社区，来快速下载本文中使用的模型，或者替换为你觉得不错的其他模型：魔搭：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4HuggingFace: Qwen/Qwen2.5 pytorch:2.4.0-cuda12.1-cudnn9-runtime bash执行下面的命令，来到工作目录：cd /modelsVLLM因为我们要处理大量数据，所以数据的处理效率非常关键，除了选择小模型之外我使用的是 7B 模型，官方模型的 config.json 和文档中有上下文和 Max Tokens 的参数，填写进来即可。数据源这里我们使用腾讯新闻的科技频道作为待处理的数据源。
1.2K10编辑于 2024-09-30
来自专栏机器之心
小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大
我们加入Chinese-LLaMA-2-7B进行评估，其为在LLaMA-2-7B基础上进行中文领域适应的模型。结合模型预训练的数据可以知道，Blooms和MindLLM-3B的预训练数据中中英文比例较平衡，而LLaMA-2-7B中中文数据比例远低于英文，在LLaMA-7B和Open-LLaMA-7B的预训练数据中中文比例更少领域应用为了展示小模型在具体领域应用的效果，我们采用了在金融和法律两个公开数据集来做出验证。从结果中可以观察到，模型的参数大小对领域性能有一定影响，但表现并不明显。 MindLLM的性能在领域应用内超越了其它同等规模的模型，并且与更大的模型有可比性。进一步证明了小模型在领域应用落地有极大潜力。金融领域在该领域，对金融数据进行情绪感知分类任务。同时，与更大规模的模型相比，它们能够以更快的训练速度和更少的训练资源取得相当的成绩。基于以上分析，我们认为小模型仍然具有极大的潜力。
1.6K20编辑于 2023-10-29
来自专栏喔家ArchiSelf
解读小模型——SLM
另一方面，人们也在创建更小的模型，称为小型语言模型（SLM），以便高效地部署在设备上，如台式机、智能手机和可穿戴设备。SLM并不是指传统的参数较少的模型，而是大模型的小型化版本。与大模型相比，SLM是一种简化的、高效的语言模型，参数数量减少，总体规模较小。SLM中的“小”表示与大型语言模型相比，参数数量和模型的总体大小都减少了。虽然大模型可能有数十亿甚至数万亿个参数，但 SLM 通常只有几百万到几亿个参数。然而，什么是“小”可以根据场景和语言建模的当前技术状态而变化。随着近年来模型规模呈指数级增长，曾经被认为是大模型的东西现在可能被认为是小模型。GPT-2就是一个很好的例子。 2. 为什么参数的数量很重要？尽管它的尺寸较小，但是它可以与更大的模型竞争，比如 Mixtral 8x7B 和 GPT-3.5，在 MMLU (一个语言理解基准)和MT-bench(一个机器翻译基准)上分别取得了可观的69% 和8.38
1.2K10编辑于 2024-12-02
来自专栏call_me_R
7 个 JavaScript 开发小技巧
那么你可以使用下面的小技巧： let array = [11, 12, 13, 14, 150, 15, 555, 556, 545]; let randomArray = array.sort(function 你可以使用数组解构的方式，如下： let x = 5; let y = 10; [x, y] = [y, x]; console.log(x); // 10 console.log(y); // 5 7.
27220编辑于 2022-04-24
来自专栏DeepHub IMBA
ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型
这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点，通过实验证明长期强化学习训练（ProRL）能够使基础模型发现全新的推理策略。近期研究倾向于移除KL惩罚项，其理由是模型在思维链推理任务的训练过程中会自然发散。这种观点通常适用于从任何监督微调之前的基础模型开始训练的情况。训练阶段6和7：将推理计数从16增加到32，执行了两次硬重置操作。随着验证指标的改善，响应长度再次开始增加。训练阶段8：将上下文窗口扩展至16k标记，同时将推理计数减少至16。该模型在竞争性编程任务中超越了基础模型，pass@1准确率提高了14.4%。该模型在多个领域展现出与更大规模模型（DeepSeek-R1-Distill-Qwen-7B）相当或更优的性能表现。
40610编辑于 2025-08-20
来自专栏新智元
小模型大趋势！Google 提出两个逆天模型：体积下降7倍，速度提升10倍
Google Research提出两个模型EfficientNetV2和CoAtNet，竟然同时做到了这三点，模型下降7倍，训练速度提升10倍，还能拿到sota！ Google 就提出了两类通过神经架构和基于模型容量和泛化性的原则性设计方法（principled design methodology）得到的神经网络模型用来图像识别。文章的第一作者是Mingxing Tan，训练感知 NAS 的架构基于之前的平台感知 platform-aware NAS，但与原方法主要关注推理速度不同，训练感知 NAS 同时优化模型精度、模型大小和训练速度在 ImageNet 上，EfficientNetV2 显着优于以前的模型，训练速度提高了约 5-11 倍，模型尺寸缩小了 6.8 倍，准确率没有任何下降。 CoAtNet 模型在许多数据集（例如 ImageNet1K、ImageNet21K 和 JFT）中始终优于 ViT 模型及其变体。
62900发布于 2021-10-12
来自专栏机器学习算法与Python学习
Torch7模型训练
Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块，这里再次基础上再给出一些上Container、 Transfer Functions Layers和 Simple Layers模块的理解并在后面给出一些简单的模型训练方法。下述程序在itorch qtconsole下运行。上一篇博文讲到Module主要有四个函数(详细见Torch7搭建卷积神经网络详细教程)，但是注意以下几点：forward函数的input必须和backward的函数的input一致，否则梯度更新会有问题上述函数的具体使用方法可以看Torch7的官方API以及帮助文档。接下来仅介绍一些模型训练所需要的关键函数。将image包导入当前运行环境，随机生成一张1通道32x32的彩色图像，如下 ?
1K130发布于 2018-04-08
来自专栏CnPengDev
小程序 | 7-wxss样式
小程序支持的选择器小程序推荐使用如下选择器。其他 css 中的选择器也支持，但可能会有兼容问题。 ? 不同选择器之间的权重： ? .content{ background: red ! 官方样式库为了减少开发者样式开发的工作量，小程序官方提供了 WeUI.wxss 基本样式库，地址为：https://github.com/Tencent/weui-wxss 下载样式库，打开时用微信
1.1K20发布于 2021-05-17
来自专栏计算机视觉战队
苹果小模型来了：权重、代码、数据集全开源，性能超越Mistral-7B
Column of Computer Vision Institute 小模型成趋势？本周，OpenAI 上线小模型 GPT-4o-mini，小模型赛道正式开卷。近期加入这一赛道的还有苹果。该模型性能已经超越了 Mistral-7B，并且正在逼近其他领先的开源模型，包括 Llama 3 和 Gemma。使用 DCLM，研究团队构建了一个高质量数据集 DCLM-BASELINE，并用该数据集从头开始训练了一个 7B 参数模型 —— DCLM-7B。 DCLM-7B 模型的细节。以下是 DCLM-7B 在各种任务（部分）上的评估结果： DCLM-7B 与其他同等大小模型比较结果如下表所示：值得注意的是，大部分其他模型虽然开放权重但封闭数据。
46210编辑于 2024-10-11
来自专栏机器之心
TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品
为此，来自华中科技大学、华为诺亚方舟实验室的研究者提出了 TinyBERT，这是一种为基于 transformer 的模型专门设计的知识蒸馏方法，模型大小还不到 BERT 的 1/7，但速度是 BERT 通过以上几个蒸馏目标函数（即方程式 7、8、9 和 10），可以整合 teacher 和 student 网络之间对应层的蒸馏损失： ? 实验结果表明：1）TinyBERT 在所有 GlUE 任务中的表现都优于 BERTSMALL，平均性能提升了 6.3%，表明本文提出的 KD 学习框架可以有效地提升小模型在下游任务中的性能；2）TinyBERT 5）对于具有挑战性的 CoLA 数据集，所有的蒸馏小模型与 teacher 模型的性能差距都比较大。映射函数对模型性能的影响研究者探究了不同映射函数 n = g(m) 对于 TinyBERT 学习的影响，比较结果见下表 7： ? 表 7：不同映射策略的对比结果。
1.4K10发布于 2019-10-08
来自专栏JusterZhu
极客说｜微软 Phi 系列小模型和多模态小模型
在这样的背景下，小模型（Small Language Models, SLMs）的研究就显得非常重要。小模型以其相对较小的规模和较低的计算算力需求，为资源有限的端侧设备环境提供了一种可行的解决方案。微软在小模型方面也持续进行了很长时间的研究，推出了 Phi 系列模型，证明了即使在较小的模型规模下，也能够实现强大的语言理解能力，生成能力，和多模态理解能力。 Phi-3 系列 Phi3 系列有三个不同量级的小模型，分别叫做 Phi-3 mini, Phi-3 small 和 Phi-3 medium。此外，我们还对驾驶员有没有系安全带进行了测试，如图6和图7所示。 PC 上用 Phi-3-visio 进行轿车司机是否系安全带的图像问答测试 Phi-3.5 系列 Phi-3.5 系列小模型是最新一代的 Phi 系列小模型，该系列包括了 Phi-3.5-mini、Phi
66400编辑于 2025-01-23
来自专栏云云众生s
小语言模型的崛起
随着语言模型不断进步，变得功能更多元、能力更强大，变“小”似乎是更佳的方向。译自 The Rise of Small Language Models，作者 Kimberley Mok。小语言模型与 LLM 的比较这些问题可能是近期兴起的小语言模型或 SLM 的诸多原因之一。小语言模型本质上是 LLM 的更精简版本，就神经网络的大小和更简单的架构而言。总之，小语言模型的出现标志着一种潜在的转变，即从昂贵且资源密集的 LLM 向更简化和高效的语言模型转变，可以说这使更多企业和组织采用并定制生成式 AI 技术来满足其特定需求变得更容易。随着语言模型发展得更加通用和强大，选择“小”似乎是最好的方式。
39810编辑于 2024-03-28
来自专栏全栈程序员必看
Centos7 升级内核小版本
Centos7 升级内核小版本 ---- 升级系统内核查内核对 yum list kernel -q ? update -y kernel 3.查看当前安装的所有内核 rpm -q kernel 4.重起 reboot 5.删除旧内核 yum -y remove kernel-3.10.0-693.el7. x86_64 6.清理包 yum clean all ---- 升级Centos7的所有包（发行版）使用yum update 命令如有错，改用下面命令 yum update --skip-broken
1.1K20发布于 2021-05-19
来自专栏python3
django-7-django模型系统
<<<常用的模型字段类型>>> https://docs.djangoproject.com/en/2.1/ref/models/fields/#field-types InterField CharFiled 2.1/ref/models/fields/#field-options primary_key auto_dreated unique指定是否为唯一 auto_now <<<常用查询>>> 通过模型类上的管理器来构造模型类上的管理器(class.objects) queryset （惰性，，没有操作数据库）表示数据库中对象的集合，等同于select 语句 query 获取mysql 语句 first()
1.2K10发布于 2020-01-17
来自专栏科技记者
第7章模型评估笔记
7.2 k折交叉验证模型性能这个方法可以解决过度适应的问题， library(modeldata) library(e1071) data(mlc_churn) churnTrain <- mlc_churn 7.5 caret包对变量重要程度排序得到监督学习模型后，可以改变输入值，比较给定模型输出效果的变化敏感程度来评估不同特征对模型的重要性。 ='churn'][,-c(5,6,7)], trainset[,'churn'],sizes = c(1:18), rfeControl = ldaControl) 通常会基于曲线下面积AUC来衡量模型的分类性能。 install.packages("ROCR") library(ROCR) svmfit <- svm(churn~. 7.13 caret包比较模型性能差异 # 模型重采样 cv.values <- resamples(list(glm=glm.model, svm=svm.model, rpart = rpart.model
99620编辑于 2022-03-04
来自专栏学习笔记ol
小谈设计模式（7）—装饰模式
小谈设计模式（7）—装饰模式专栏介绍主要对目前市面上常见的23种设计模式进行逐一分析和总结，希望有兴趣的小伙伴们可以看一下，会持续更新的。希望各位可以监督我，我们一起学习进步，加油，各位。
37120编辑于 2023-10-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试

处理模型数据（7）

使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B

大模型、小模型、参数量

使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

解读小模型——SLM

7 个 JavaScript 开发小技巧

ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

小模型大趋势！Google 提出两个逆天模型：体积下降7倍，速度提升10倍

Torch7模型训练

小程序 | 7-wxss样式

苹果小模型来了：权重、代码、数据集全开源，性能超越Mistral-7B

TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品

极客说｜微软 Phi 系列小模型和多模态小模型

小语言模型的崛起

Centos7 升级内核小版本

django-7-django模型系统

第7章模型评估笔记

小谈设计模式（7）—装饰模式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试

处理模型数据（7）

使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B

大模型、小模型、参数量

使用小尺寸大模型和 Dify 清洗数据：Qwen 2.5 7B

小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大

解读小模型——SLM

7 个 JavaScript 开发小技巧

ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

小模型大趋势！Google 提出两个逆天模型：体积下降7倍，速度提升10倍

Torch7模型训练

小程序 | 7-wxss样式

苹果小模型来了：权重、代码、数据集全开源，性能超越Mistral-7B

TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品

极客说｜微软 Phi 系列小模型和多模态小模型

小语言模型的崛起

Centos7 升级内核小版本

django-7-django模型系统

第7章 模型评估 笔记

小谈设计模式（7）—装饰模式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第7章模型评估笔记