首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型、小模型参数

    ## 几个概念总参数量 = 词嵌入层参数 + 解码器层参数模型 就是在参数量上显著小于LLM的模型所有参数 都放在 safttensors 模型文件 中预训练 就是为了 生成合理的 参数值后训练 也是为了 生成合理的 参数值蒸馏、微调、强化学习,都是后训练模型变成小模型采用"蒸馏+量化+剪枝"的组合策略 一、模型 GPT-3 参数量详解模型参数量是指神经网络中所有可训练权重和偏置的总数,这些参数决定了模型的学习能力和表达能力 输出层输出层为线性层,将隐藏向量映射回词表概率,参数量与词嵌入层完全一致(共享权重是主流模型的优化方式,若不共享则单独计算,结果相同)。 三、模型、小模型参数差距的本质模型参数量,本质上是用 dmodel2d_{model}^2dmodel2​ 的代价,换取高维语义空间的表达能力。 这就是为什么我们在做 RAG 或 Agent 时,如果任务简单(如分类、提取),坚决不用模型,因为又慢又贵。Phi-3 为什么只有 3.8B?

    53921编辑于 2026-01-04
  • 来自专栏Tidb

    Mysql可调优的参数分享

    如果服务器的并发连接请求量比较大,可调高此值以增加并行连接数量。 这个参数大小是否足够还是比较容易知道的,因为当过小的时候,MySQL会记录Warning信息到数据库的error log中,这时候就该调整这个参数大小。 的日志缓冲允许事务运行时不需要将日志保存入磁盘而只到事务被提交(commit)。 因此,如果有的事务处理,设置的日志缓冲可以减少磁盘I/O。 在 my.cnf中以数字格式设置。 当然如上面介绍所说,这个参数实际上还和另外的flush参数相关。 具有的记录长度的临时表 (所有列的长度的和)或包含BLOB列的表存储在硬盘上。

    1.4K00发布于 2021-08-08
  • 来自专栏机器学习与推荐算法

    OpenGraph: 通用图基座模型

    TLDR: 港大发布通用图基座模型OpenGraph,巧妙地从语言模型(LLM)中蒸馏零样本以增强图泛化能力。 这使得模型不能通过学习和特定数据集的图token绑定的参数,来进行跨数据集的预测任务。 C2. 模型介绍 模型整体架构如下图所示,可以分为三个部分,分别为1)统一图Tokenizer,2)可扩展的图Transformer,3)语言模型知识蒸馏。 语言模型知识蒸馏 由于数据隐私等原因,获取各个领域的数据来训练通用图模型是很有挑战性的。 通过在多个基准数据集上进行的大量实验,我们验证了模型的杰出泛化能力。本研究在图基座模型方向作出了初步探索的尝试。

    41710编辑于 2024-03-15
  • 来自专栏自然语言处理

    模型生成解码参数速查

    控制输出长度的参数 控制所使用的生成策略的参数 用于操作模型输出 logits 的参数 定义“generate”输出变量的参数 可以在生成时使用的特殊字符

    24510编辑于 2024-01-09
  • 来自专栏山河已无恙

    Linux 性能调优之内核可调参数

    所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》 Linux 中 内核可调参数允许系统管理员和用户根据系统需求和特定的使用场景来调整内核的行为和性能 提高系统安全和稳定性 2/proc 文件系统 /proc 文件系统是一个伪文件系统,通过proc 可以查看进程内核数据结构的,内核在启动时将进程文件系统挂载到 proc 文件系统,/proc 中静态文件为只读文件,内核可调参数文件 root 0 Sep 17 05:58 wchan # 进程的等待通道信息 ┌──[root@liruilongs.github.io]-[/proc/1] └─$ 3内核可调参数 ,如: 页内存参数 需要说明的是,内核可调参数并不是调整就是优化,存在危险性(不恰当的调整,也可能带来危险) 如果将 /proc/sys/kernel/threads-max 的值修改为 1,计算机将无法启动超过 目录中的文件[临时有效,重启无效] 通过 sysctl -w 命令修改[临时有效,重启无效] 修改/etc/sysctl.conf 文件或/etc/sysctl.d/目录重创建配置文件,永久有效 查看内核可调参数的列表

    1K20编辑于 2023-12-04
  • 来自专栏具身小站

    模型参数高效微调概述(PEFT)

    PEFT,全称是 参数高效微调 (Parameter-Efficient Fine-Tuning),是一套用于调整大型预训练模型(如语言模型LLM)以适应特定下游任务的方法论,其核心思想是在 极小化计算和存储资源 1 核心原理 PEFT的底层逻辑基于一个重要的观察和假设: 模型适应新任务所需的参数变化,其“内在维度”其实很低 。 2 主要方法分类与技术详解 目前主流的PEFT方法可以根据其修改模型的方式分为三类: 分类 核心思想 代表技术 通俗比喻 添加式方法 冻结原始模型,添加新的、小型的可训练模块或参数 Adapters, QLoRA :LoRA的进化版, 结合了4-bit量化技术 ,进一步将模型的基本权重压缩,使得在单张消费级GPU(如24GB显存)上微调650亿参数模型成为可能。 3 PEFT的主要作用与优势 PEFT之所以成为模型应用的关键技术,是因为它解决了全量微调的几大痛点: 极大降低硬件门槛 :由于需要计算和存储梯度的参数极少,对GPU显存的需求大幅下降。

    44510编辑于 2026-03-09
  • 来自专栏新智元

    首个科学计算基座模型BBT-Neutron开源!突破科学装置数据分析瓶颈

    新智元报道 编辑:LRST 【新智元导读】语言模型能否解决传统语言模型在大规模数值数据分析中的局限性问题,助力科学界科学装置设计、高能物理领域科学计算? 其中,研究人员从粒子对撞实验出发,探索了语言模型科学装置数据分析与科学计算领域的全新应用场景—— 具体来说,团队将其最新研发的科学基座模型BBT-Neutron应用于粒子对撞实验,模型采用了全新的二进制分词方法 通俗而言,当数据规模逐步增加时,该模型在性能上出现了显著跃迁。这一发现验证了通用模型在大规模科学计算任务中的可扩展性,即该模型有望成为跨领域的科学计算基座模型。 该论文研究标志着模型在多模态数据处理与科学计算任务中的巨大潜力。随着人工智能技术与科学装置的深度融合,在未来或许能够加速中国大对撞机CEPC等前沿科研项目的实施落地。 BBT模型发展历程 2022年:发布BBT-1,10亿参数的金融预训练语言模型; 2023年:发布BBT-2,120亿参数的通用语言模型; 2024年:发布BBT-Neutron,1.4亿参数的科学基座语言模型

    45910编辑于 2025-02-15
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(九):模型微调之计算微调参数占比

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍如何打印微调参数,以及微调参数占比计算。 二、计算微调参数占比 2.1 概述 基于LoRA进行模型微调时,需要先冻结全部参数,再指定相应的Linear层进行微调,那么如何计算全部参数,如何计算微调参数以及如何计算微调参数占全部参数的比例呢? 2.2 模型参数结构一览 这里以Qwen2为例,在微调前,对模型结构有所认知,对于QLoRA量化微调算法来说,只微调模型的线性层(Linear层),后面会看到在LoRAConfig中,仅指定了"q_proj 计算参数数量: 对于每个参数,通过param.numel()计算其元素数量(即参数的大小),并累加到all_params以得到模型的总参数数。

    65810编辑于 2024-08-13
  • 腾讯“云基座+AI模型”重构公积金核心系统与业务闭环纪要

    公众服务体验的体验落差:公众对政务服务提出“秒批秒办”、“无感漫游”的期待,但传统模式仍停留在“可办”阶段,缺乏以AI模型驱动的智能客服、智能审批及智能风控等前沿技术支撑,难以向“好办智办”跃升。 TI/ADP智能体开发平台:支持混元、DeepSeek等多模型纳管、RAG(检索增强生成)与Multi-Agent工作流编排。 深度植入公积金五AI业务场景: 智能审批与风控:引入AI视觉与OCR技术自动提取核验征信与贷款材料,构建多维风险特征图谱实现骗提骗贷事前预警。 AI模型精准度:系统上线首周,智能客服的AI解答准确率即达到 82%,显著降低了人工客服接线压力。 行业前沿的AI专利与产品矩阵:累计获得5000+项AI相关专利,全球互联网企业专利榜排名第2;主导的智能体开发平台(ADP)及模型矩阵深度集成RAG体系,已被多家头部政企采用,确保技术红利直接转化为政务生产力

    2900编辑于 2026-04-15
  • 2026-2027 模型领域5突破性方向展望

    二、参数可调基座模型:从“固定能力”到“动态适配”,解锁模型复用新可能当前主流的模型,本质上是“训练完即固定”的静态模型——即便通过LoRA微调、Prompt工程等方式优化,也存在迭代周期长、资源消耗参数可调基座模型,将成为下一代模型架构的核心突破点。 所谓“参数可调基座”,行业内也称之为DynamicLLM(动态模型)或可插拔基座,其核心优势在于:基座模型本身具备“实时、细粒度参数调节”能力,无需重新训练、无需分布式部署,即可实现能力开关、推理风格调节 简单来说,一个可调基座模型,就能替代多个专用模型,实现“一基多用”。 总结:五突破,共筑下一代AGI落地基石综上,智能体的无感交互、参数可调基座、AIInfra核心算法、多模态世界模型、长链路推理关键节点优化,这五方向并非孤立存在,而是相互支撑、协同演进——交互方式的优化降低了落地门槛

    1.8K10编辑于 2026-03-15
  • 来自专栏程序随笔

    聊聊GLM基座模型的理论知识

    概述 模型有两个流程:预训练和推理。 预训练是在某种神经网络模型架构上,导入大规模语料数据,通过一系列的神经网络隐藏层的矩阵计算、微分计算等,输出权重,学习率,模型参数等超参数信息。 推理是在预训练的成果上,应用超参数文件,基于预训练结果,根据用户的输入信息,推理预测其行为。 掩码处理 GLM统一了自编码模型与自回归模型,主要是在该处理过程实现的。该过程也被成为自回归空格填充。 掩码的目的是让模型学习预测那些被掩码的词语。让模型能够在预训练过程中更好地学习语言规律和上下文信息。 这意味着在预测[mask]中原来的词的同时,模型可以参考之前片段的信息。 上下文信息利用:为了让模型能够更好地理解上下文信息,GLM模型将被掩码的片段的顺序打乱。

    1.5K10编辑于 2023-12-18
  • 来自专栏IT技术订阅

    DeepSeek模型参数散存技术解析

    一、参数散存技术的核心思想与架构基础 参数散存技术是DeepSeek模型实现高效计算与资源优化的核心创新之一。其核心理念在于通过动态分配与选择性激活模型参数,减少冗余计算,提升资源利用率。 1.1 混合专家架构(MoE)的动态参数激活 DeepSeek采用MoE架构实现参数的物理分散与逻辑集中。在模型结构中,每个前馈网络层被替换为由多个独立专家子网络组成的MoE层。 这种设计使得总参数量达6710亿的模型,在单次推理时仅需激活370亿参数,显著降低了计算复杂度。 知识蒸馏:通过教师-学生框架将670B参数模型的能力迁移至7B小模型,在保持90%性能的前提下实现参数量级压缩。 绿色计算实践:目标在1W功耗下运行10B参数模型,当前原型机已实现70%能效目标。 DeepSeek的参数散存技术标志着模型设计从"规模至上"到"效率优先"的范式转变。

    88210编辑于 2025-02-10
  • 来自专栏AI前沿技术

    模型训练|LoRA高效参数微调技术

    它打破传统全量微调的局限,只对模型中少量参数进行调整,就能让模型在特定任务上表现出色,大大降低了模型在不同任务适配过程中的资源门槛。 这也是低秩适应技术在模型优化中广泛应用的核心原因。 2,LoRA微调策略 • 传统的全量微调策略 预训练好的模型,其权重矩阵为 ,维度是 。 此外,模型权重更新具有“低内在秩”的特征,并非所有的参数都需要调整,更新方向集中在少数主要成分上。因此LoRA通过低秩分解来模拟参数的改变量。 在模型的自注意力层,可训练的参数有四个 ,通过变化矩阵的秩 r,保持可微调的参数总量为18M,分别在两个任务上进行测试。 实验发现在参数矩阵 ,进行LoRA微调,即使矩阵的秩 r=1也取得了和秩矩阵 r=64 一样的效果。

    95410编辑于 2026-01-13
  • 来自专栏AI SPPECH

    56_模型微调:全参数参数高效方法对比

    深度解析模型微调技术与最佳实践 模型微调技术演进 ├── 传统阶段(2017-2020): 全参数微调,资源消耗巨大 ├── 发展阶段(2021-2022): 早期参数高效方法(Prefix-Tuning 2025年,模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。 1.1 微调的基本概念与原理 模型微调是指在预训练模型的基础上,使用特定领域或任务的数据进行进一步训练,使模型更好地适应目标场景的技术过程。 模型规模影响 小模型(≤1B):全参数微调和参数高效方法差异较小 中模型(1B-10B):LoRA/QLoRA开始显现优势 模型(10B-70B):LoRA/QLoRA成为主流选择 超大模型(>70B 微调即服务(MFTaaS)的兴起将进一步降低模型应用的门槛,使得更多组织和个人能够利用模型技术创造价值。

    94710编辑于 2025-11-13
  • 来自专栏大模型应用

    模型应用:模型越大越好?模型参数量与效果的边际效益分析.51

    模型参数量和效果的关系,藏着“边际效益递减”的底层逻辑。盲目追参数,只会白白浪费算力和存储成本。今天我们就把这个问题讲透,我们怎么去找到效果够用、成本最低的最适合我们业务场景的模型模型参数量定义:模型中可学习的参数总数,类比为模型的知识储备量”。简单理解:参数模型训练时调整的变量,比如神经网络中的权重、偏置。 对应模型参数量,把 “喝水” 换成 “给模型参数量”,“解渴” 换成 “模型效果提升”:模型从 1B→7B(投入:加 60 亿参数):效果从 “磕磕绊绊” 变成 “流畅回答”,好处超大(就像第一杯水 对模型来说,就是参数量加到一定程度,再堆参数就是白费力气、浪费了重要的资源,找到那个 “加参数最划算” 的临界点,才是关键。 模型中的对应关系:小模型→中等模型参数量增加,效果显著提升(高边际效益);中等模型模型参数量增加,效果提升放缓(边际效益递减);模型→超大模型参数量增加,效果几乎不变甚至下降(负边际效益)。

    43343编辑于 2026-03-20
  • 来自专栏新智元

    模型只有参数和算力?这款国产模型证明:落地为王!

    ---- 新智元报道   编辑:好困 David 【新智元导读】搞模型,什么最重要?突破天际的参数规模?不差钱的海量算力?还是一刷再刷的SOTA?这些可能都不是! 这个模型体系,包含学习了足够多数据与知识的基础模型,面向常见AI任务专门学习的任务模型,以及引入行业特色数据和知识的行业大模型。 基础模型具有学习的数据、知识量大、参数规模特点,通用性最高。 不过,无论模型的性能有多强,参数量如何突破天际,最终还是要看它在哪个领域真正发挥作用,看它能给千千万万从业者和普通人带来什么实际便利。 巨大的参数规模,以及不同模型和算力平台之间的差异,给训练带来了极大的挑战。 这是全球首个知识增强千亿模型参数规模达到2600亿,是当时全球最大中文的单体模型,在60多项任务中取得了SOTA。

    2.1K20编辑于 2022-05-30
  • 来自专栏大模型应用

    模型应用:模型参数调优:结合本地模型对比多种组合探索差异.7

    引言 在模型的应用中,参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同,模型的生成参数更像是一组精密的调控旋钮,它们不改变模型的基础知识,而是影响模型如何思考和表达。 理解这些参数的本质,不仅能够提升模型输出的质量,更是将模型从玩具转变为工具的关键一步。 今天我们将从理论基础到实践应用,全面解析模型的核心参数体系,详细的介绍模型推理中常用的参数项,并通过本地模型示例展示参数调整对模型效能的影响。常见参数项:max_length:生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """模型参数测试器 分步调优流程图五、总结 模型参数调优本质上是在控制与释放之间寻找平衡的艺术。

    70232编辑于 2026-02-04
  • 来自专栏从0开始学Go

    老婆问我:“什么是模型的“超参数”?”

    最近,老婆刷到一条新闻:“科学家调整超参数模型智商飙升!”她一脸懵地问我:超参数是超级英雄的密码吗?难道AI模型还要输作弊码? 超参数的本质想象一下,超参数是调制AI鸡尾酒的配方比例。数据是基酒,模型结构是酒杯,而超参数决定了“加多少冰块、摇多久、柠檬汁滴几滴”。核心不是改变原料,而是激发最佳风味。 但放任自流会酿成三惨剧:走火入魔:学习率太高时,模型像饿鬼吞饭,把噪声当真理。比如看图学动物,会把“树叶影子”当成斑马条纹特征。 超参数的秘诀顶级AI工程师调超参数,像指挥交响乐般精准控制三主旋钮:1. 学习率(油门深浅)太大:模型在知识悬崖上蹦极,一步跨过正确答案。适中:像考古学家用小刷子清理文物,逐步逼近真理。 超参数的局限但超参数调整不是点石成金术,仍有三难题:玄学炼丹:最佳组合往往靠直觉和经验,就像中餐菜谱里的“盐少许”。同一组参数换到医疗AI上,可能从神医变庸医。

    28220编辑于 2025-03-25
  • 来自专栏山河已无恙

    Linux 性能调优之配置CPU调度策略和可调参数

    写在前面 考试整理,博文内容涉及: CPU 调度简单认知 不同进程优先级和不同调度策略认知 CPU调度内核调度可调参数介绍 理解不足小伙伴帮忙指正 人生不是书上的故事,喜怒哀乐,悲欢离合,都在书页间,可书页翻篇何其易 20 到 19)(ulimit -e) rtprio(实时优先级):最大实时优先级(ulimit -r) /etc/security/limits.conf 下进行相关配置 # 配置 priority 参数 <nice_value> # 配置 rtprio 参数 @realtimegroup hard rtprio <rtprio_value> 调度策略认知 实时调度策略 ┌──[root 配置项,并设置为所需的调度策略 CPUSchedulingPolicy=other CPUSchedulingPolicy=batch CPUSchedulingPolicy=idle 内核调度策略可调参数 sysctl命令可以对CFS调度算法进行调优,调优的参数在/proc/sys/kernel目录下 sched_latency_ns sched_latency_ns是一个用于定义目标抢占延迟时间的变量

    2.4K20编辑于 2024-03-18
  • 来自专栏AIUAI

    TensorFlow 目标检测模型转换为 OpenCV DNN 可调用格式

    TensorFlow 训练得到的模型是 .pb 后缀的二值文件,其同时保存了训练网络的拓扑(topology)结构和模型权重. 这里以 ssd_mobilenet_v2_coco_2018_03_29 预训练模型(基于 COCO 数据集训练的 MobileNet-SSD模型)为例: #!/usr/bin/python3 #! TensorFlow 目标检测模型转换为 DNN 可调用格式 OpenCV DNN 模块调用 TensorFlow 训练的目标检测模型时,需要一个额外的配置文件,其主要是基于与 protocol buffers From: https://github.com/opencv/opencv/tree/master/samples/dnn 转换脚本的输入参数: [1] - --input: TensorFlow 转换脚本的输出参数: [1] - --output: 输出的 text graph 文件.

    2.8K20发布于 2019-05-13
领券