首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI科技评论

    从炼大模型大小模型协同进化!产研界联合发布端云协同平台“洛犀”

    该平台提供一站式的端云协同模型训练、部署、通信能力,致力于促进大小模型协同进化,构建充分利用大模型应用潜力的新一代人工智能体系。 2022达摩院十大科技趋势指出,大模型参数竞赛正进入冷静期,大小模型将在云边端协同进化——大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效,让大模型的能力持续强化 该名取自宇宙中大小星体间永恒的洛希吸引力,并含强大、坚韧之意,寓意大小模型珠联璧合。 洛犀平台沉淀了端云两侧最佳实践的算法组件和平台服务。 此外,团队还借助洛犀完成了图神经网络、排序模型、强化学习等技术在端云协同范式下的部署。 浙江大学上海高等研究院常务副院长吴飞教授如此形容大小模型间的辩证关系。庞大的须弥山如何纳入极微小的种子中? 达摩院智能计算实验室负责人周靖人介绍,团队将进一步探索端云协同框架下端模型和云模型协同机理,并完善算法方案和业务实践。洛犀平台未来计划对开发者开放,让大小模型协同进化的时代加速到来。

    1.7K10编辑于 2022-03-03
  • 来自专栏深度学习与python

    大小模型协同架构在金融智能投顾中的应用与挑战

    本文整理自北银金科高级算法专家尹辰轩 6 月份在 AICon 2025 北京站 的分享《大小模型协同在智能投顾领域的应用》。 本次演讲分享了大小模型协同架构下的大模型投顾方案,利用传统量化小模型的精准性和高性能,结合大模型 Agent 的搭建,实现问题识别、任务扩写、API 调用小模型以及答案融合。 智能投顾的前世今生 在智能投顾这一业务场景中,我们尝试用“大小模型协同”的架构,对传统金融业务做了一次 AI 原生的再创造。 先回到“智能投顾”本身。这个概念早在十年前就已进入公众视野。 大小模型协同架构 我们在大小模型协同中要解决的核心问题有三点:幻觉、专业深度、算力成本。 幻觉容忍度低在银行业务里,大模型 1% 的错误可能直接抬高 1% 的不良率,这是不可接受的。 大小模型协同的价值与效果 大模型投顾的最大优势在于其互动性和用户体验。与传统的机械化自动化推荐客服相比,大模型投顾在这些方面确实表现出色。

    72110编辑于 2025-11-26
  • 来自专栏具身小站

    模型大小和显存大小的关系

    模型尺寸、显存与优化技术三者是动态平衡的关系,更大的模型通常意味着更强的能力,但落地成本也会急剧增加。 PART 01 核心关系:模型大小与显存消耗 模型对显存的消耗主要分为 推理 和 训练 两个阶段,前者需求较低,后者则成倍增长。 1. 推理显存计算 推理时,显存主要用于存放 模型权重 。 INT4 :0.5 字节/参数,极致的量化方案,能在显存受限的设备上运行大模型。 例如,一个FP16格式的7B模型,其权重显存需求约为7 × 2 = 14 GB。 训练显存计算 模型训练的内存消耗是推理的数倍,因为除了模型参数外,还需要额外显存来存储 梯度 和 优化器状态 。 PART 03 不同场景下的显存策略 下表汇总了不同模型尺寸在各种场景下的典型显存需求,方便根据自身硬件条件进行选择。

    24510编辑于 2026-05-22
  • 来自专栏AI科技评论

    如何打通大小模型任督二脉?「洛犀」端云协同平台重磅发布,技术详解来了!

    2022达摩院十大科技趋势指出,“大模型参数竞赛正进入冷静期,大小模型将在云边端协同进化”——大模型向边、端的小模型输出模型能力,小模型负责实际的推理与执行,同时小模型再向大模型反馈算法与执行成效。 1月24日,业界首个“大小模型协同进化”实践来了!在 “中国工程院院刊:信息领域青年学术前沿论坛”上,阿里达摩院、浙大高等研究院、上海人工智能实验室联合发布“洛犀”端云协同平台。 该平台提供一站式的端云协同模型训练、部署、通信能力,致力于促进大小模型协同进化,构建充分利用大模型应用潜力的新一代人工智能体系。 “洛犀”一名取自宇宙中大小星体间永恒的洛希吸引力,并含强大、坚韧之意,寓意大小模型珠联璧合。 洛犀平台背后还有一层深意:“须弥藏芥子,芥子纳须弥。” ,称之为“端侧中心化协同;-当云侧有泛化模型、端侧有个性化模型,且两个模型相互协作学习和推理时,称之为“端云双向协同”,代表性方向可参考达摩院十大趋势中提到的大小模型协同演进。

    2.3K10编辑于 2022-03-03
  • 来自专栏DeepHub IMBA

    如何估算transformer模型的显存大小

    在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。 所以最后内存就变为: memory_modal = 4*n_tr_blocks*square_of(n_head * dim) 上面的估算没有考虑到偏差所需的内存,因为这大部分是静态的,不依赖于批大小 transformer模型所需的总内存为: total_memory = memory_modal + 2 * memory_activations 模型参数的内存: 4*n_tr_blocks*square_of R = n_tr_blocks = transformer层堆叠的数量 N = n_head = 注意力头数量 D = dim = 注意力头的维度 B = batch_size = 批大小 S S,这时可以将计算变为: M = (4 * R * N^2 * D^2) + RBNS(S) = 4*R*N^2*D^2 + RBNS^2 可以看到对于较大的序列,M与输入序列长度的平方成正比,与批大小成线性比例

    2.4K30编辑于 2022-11-11
  • 来自专栏数据派THU

    如何估算transformer模型的显存大小

    在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。 所以最后内存就变为: memory_modal = 4*n_tr_blocks*square_of(n_head * dim) 上面的估算没有考虑到偏差所需的内存,因为这大部分是静态的,不依赖于批大小 transformer模型所需的总内存为: total_memory = memory_modal + 2 * memory_activations 模型参数的内存: 4*n_tr_blocks R = n_tr_blocks = transformer层堆叠的数量 N = n_head = 注意力头数量 D = dim = 注意力头的维度 B = batch_size = 批大小 S = sequence_length 这时可以将计算变为: M = (4 * R * N^2 * D^2) + RBNS(S) = 4*R*N^2*D^2 + RBNS^2 可以看到对于较大的序列,M与输入序列长度的平方成正比,与批大小成线性比例

    3.3K20编辑于 2022-09-14
  • VLM双模型协同规划复杂视觉任务

    该方法使用一个专门的视觉语言模型来感知图像中的场景,并模拟达成目标所需的动作。然后,第二个模型将这些模拟结果转换为用于规划问题的标准编程语言,并对解决方案进行细化。 处理视觉任务在过去几年中,研究人员及其同事一直在研究使用生成式AI模型来执行复杂的推理和规划,通常利用大型语言模型处理文本输入。 许多现实世界的规划问题(如机器人装配和自动驾驶)具有视觉输入,而大型语言模型自身难以良好处理。研究人员试图通过利用视觉语言模型(能够处理图像和文本的强大AI系统)来扩展到视觉领域。 该系统名为“视觉语言模型引导的形式化规划”,它利用两个专门的视觉语言模型协同工作,将视觉规划问题转化为可供形式化规划软件直接使用的文件。 “生成器和模拟器协同工作,以达成完全相同的结果,即一个能实现目标的动作模拟,”作者解释道。

    13010编辑于 2026-05-23
  • 来自专栏量子位

    万亿大模型究竟怎么用?达摩院&浙大&上海人工智能实验室联手推出洛犀平台:大小模型端云协同进化

    大小模型协同进化,才能充分利用大模型应用潜力,构建新一代人工智能体系。 此话怎讲? 这就得先说说大模型“军备竞赛”背后的现实困境了。 大小模型协同进化 核心问题总结起来很简单,就是大模型到底该怎么落地? 说白了,就是参数量竞相增长的大模型们,规模太过庞大,很难真正在手机、汽车等端侧设备上被部署应用—— 要知道,1750亿参数的GPT-3,模型大小已经超过了700G。 这样做的好处,还不只是将大模型的能力释放到端侧,通过大小模型的端云协同,小模型还可以向大模型反馈算法与执行成效,反过来提升云端大模型的认知推理能力。 也正是在这样端云协同的趋势之下,大小模型协同演进有了新的范式可依:云侧有泛化模型,端侧有个性化模型,两个模型相互协作、学习、推理,实现端云双向协同

    1.2K30编辑于 2022-03-04
  • DeepFig ModelFusion:重新定义多模型协同架构

    异构模型通信的技术突破当AI模型规模迈入千亿参数时代,单一模型已无法满足复杂场景需求,而多模型协同却面临"通信延迟"与"资源冲突"的双重挑战。 DeepFig独创的ModelFusion架构,通过三项核心技术突破,实现了异构模型的高效协同:1. 张量内存池(TMP)解决多模型显存碎片化问题:统一管理各模型的中间张量,内存复用率提升65%智能预分配策略,将模型启动时间从8分钟压缩至45秒支持显存/内存自动交换,16G显存即可运行4个百亿模型核心技术参数解密表格复制技术指标 DeepFig V1.0行业平均水平技术差距多模型通信延迟12ms85ms7.1x模型切换耗时300ms2.4s8x内存复用率89%42%2.1x最大支持模型数量16个4个4x异构模型兼容性11种类型3 DeepFig提供完整的技术支持体系:模型市场:100+预优化模型一键部署性能分析工具:可视化展示模型瓶颈,自动生成优化建议学术合作计划:提供免费算力支持前沿研究企业级服务:7×24小时技术支持,SLA

    33300编辑于 2025-09-09
  • 可扩展文本转语音框架实现多模型协同

    这些机器学习模型架构差异巨大,传统集成方式耗时且复杂。为解决该问题,某机构文本转语音团队开发了通用模型集成框架。 模型多样性挑战现代语音模型通常采用双神经网络架构:声学模型:将文本转换为梅尔频谱图声码器:将频谱图转为音频波形主流声学模型采用注意力机制,但存在语音清晰度问题。 集成技术难点框架需要解决三大核心问题:流式处理:支持语音分块生成以降低延迟硬件适配:兼容不同加速器(如需要固定张量大小的专用芯片)逻辑分层:明确模型与集成层的功能边界模块化架构设计集成层通过两类组件实现功能解耦 :SequenceBlock:处理张量转换(如文本编码)StreamableBlock:按需生成数据(如音频帧)典型声学模型构建示例:双编码器(SequenceBlock)处理文本嵌入上采样器(StreamableBlock Upsampler'}, {'type': 'Decoder'} ] } }]该框架已成功应用于生产环境,既支持最新无注意力架构,也兼容传统模型

    22310编辑于 2025-08-14
  • 来自专栏绿盟科技研究通讯

    智能安全运营:大模型工具协同与学习框架

    模型驱动的智能安全运营 大模型技术的快速发展,给智能安全运营技术提供了全新的交互范式、任务分析范式与思路,并从分析维度、整合维度、协同维度,为经典网络空间人工智能技术栈的升级提供了重大机遇。 大模型工具协同与学习框架 大模型可以在网络安全运营中提供很多关键任务支撑的角色,如告警研判分析、报告摘要总结、响应执行建议、安全知识问答等等。 从实现LLM+SOAR的统一分析界面与协同框架来看,大模型作为交互界面+决策大脑的角色更为关键。 从实现LLM+SOAR的统一分析界面与协同框架来看,大模型作为交互界面+决策大脑的角色更为关键。 统一消歧的数据图谱、完整完备的工具支撑体系、专用专精的“小模型”库以及支撑协同调度的统一执行框架,这些典型安全分析能力仍然是发挥大模型安全价值的关键基础。

    99240编辑于 2023-08-31
  • 来自专栏机器学习与推荐算法

    关于推荐系统中协同过滤模型的思考

    摘要 来聊聊推荐中的协同过滤思想。 正文 推荐系统,主要研究的是两类对象:用户(user)和物品(item),即给对的用户推荐对的物品。 协同过滤,想必大家都听说过吧,这是推荐系统中最为经典的模型之一。她是利用集体智慧的思想来完成个性化的推荐任务。 其实,协同过滤就是研究这两个对象(user和item)以及这三种相似性(user-user、item-item和user-item)的算法。 协同过滤可进一步的分为基于近邻的模型和隐因子模型。 ② 其中隐因子模型主要是将用户-物品矩阵编码到同一隐变量空间,其中当属矩阵分解(Matrix Factorization)模型了。 由此可见,协同过滤主要衡量的是两个对象之间的相似性。

    55520发布于 2020-04-20
  • 来自专栏深度学习自然语言处理

    【QA】基于动态协同网络(DCN)的问答模型

    在训练期间使用最大序列长度600,对于所有循环单元,maxout层和线性层使用隐藏状态大小200。所有LSTM都随机初始化参数,初始状态为零。Sentinel向量在训练期间随机初始化和优化。 对于动态解码器,将最大迭代次数设置为4,maxout pool大小为16,并使用ADAM优化模型,所有模型都使用Chainer。 实验结果 在数据集SQuAD上,有两个评估指标。 与其他模型相比,SQuAD数据集的DCN模型的性能如下表所示。从表中可以看出无论是单模型DCN还是整体DCN都排名第一。 ? 类似地,模型逐渐将终点的概率质量移动到正确的单词。 ? 作者在实验中使用2层MLP代替HMN来测试HMN maxout层的池的大小,实验数据显示(如下图)pool的大小为16时模型性能更好。 ? 从下图的实验结果可以看出协同注意力编码器对于长文档很大程度上是不可知的,其性能并没有随着文档的长度呈骤降趋势。我们可以看到,答案越长,性能就会越低。 ?

    96750发布于 2020-02-18
  • 人机协同蒸馏实战:揭开大语言模型的黑盒

    将大语言模型带出黑盒:人机协同蒸馏实用指南随着自然语言处理领域的发展和新思想的涌现,我们看到越来越多高效利用计算能力的方法,从而构建出运行成本更低、更易于控制的AI系统。 将分享一些真实世界的案例研究和方法,指导如何在开发阶段而非运行时使用大型生成模型,通过高效的人机协同工作流来提炼其结构化预测结果,并将针对特定任务的组件蒸馏到小至6MB,这些组件可以低成本、私密且可靠地运行 人机协同蒸馏工作流工作流的关键在于结合上下文学习与人机协作,最终蒸馏出任务专用模型。 人机协同:利用工具(如 Prodigy)构建高效的标注工作流,人类标注员可以快速审核、纠正或补充模型生成的初步标注,从而创建高质量的训练数据集。 过程:在人机协同循环中使用LLM进行标注。结果:蒸馏出仅6MB的模型,F1分数达到99%,数据处理开发速度提升了10倍,目前已有8个市场分析管道投入生产,处理速度达16000+ 词/秒。

    26410编辑于 2026-01-13
  • 来自专栏深度学习与计算机视觉

    如何计算CNN感受野、计算量和模型大小

    下面以最经典的AlexNet模型为例子,计算感受野,模型计算量和大小(内存)。下面这张图是AlexNet的结构图,看起来比较直观。 ? 计算量 计算量是评价一个模型重要的标准之一,其实在模型的计算量统计时有两点简化的地方: 模型的不同层中,卷积层和全连接层是占据了绝大多数的计算量,所以下面我们只关注这两个层的计算; 卷积层和全连接层都有对应的 105M(11\times11\times3+1)\times55\times55\times96= 105705600=105M (11×11×3+1)×55×55×96=105705600=105M 模型大小 模型大小完全由模型的参数数量和参数的存储形式决定: 卷积层 卷积层的参数数量就是一个卷积核的参数乘上卷积核的个数: Pn=(w×h×ci+1)×coP_{n}=(w\times h\times c ,一般情况下模型的参数是按照float形式存储的,占4个字节,AlexNet模型大小是238147KB: 60M×4=240000000B=234375KB60M\times4=240000000B=

    3.6K1816发布于 2019-08-29
  • 来自专栏AI研习社

    TensorFlow 模型优化工具包:模型大小减半,精度几乎不变!

    图 1 IEEE 754 标准下 binary16 的格式 训练后的 float16 quantization 减少了 TensorFlow Lite 模型大小(高达 50%),同时以少量的精度损失为代价 训练后的 float16 quantization 是量化 TensorFlow Lite 模型很好的方法,因为它对精度的影响极小并且能够使得模型大小显著减小。 模型尺寸测试结果 训练后的 float16 quantization 对精度的影响很小,并可以使得深度学习模型大小减小约 2 倍。 图 3 不同模型模型大小变化 模型精度测试结果 在 ILSVRC 2012 图像分类任务中,我们评估了标准 Mobilenet Float32 模型(和 FP16 变体)。 图 5 模型参数相关设置 转换模型后,用户就可以像任何其它 TensorFlow Lite 模型那样直接运行该模型了。

    1.9K30发布于 2019-08-15
  • 来自专栏NewBeeNLP

    他山之石 | 百度大小模型联动及落地实践

    今天,我们分享百度提出的一种大小模型联动的学习方式,小模型可以通过知识蒸馏从大模型中学习,并可以在许多下游任务中达到与大模型相似的性能,从而使其在推理时更轻、更快,同时小模型可以反哺大模型提升大模型的训练精度 这个时候加入蒸馏,模型具备一定的训练基础,比不加蒸馏的模型效果好。这种方式的优势是在预训练蒸馏后下游不需要再蒸馏,劣势是整体效果的天花板较低。 02 大小模型联动 1. 先介绍小模型反向蒸馏大模型,整体架构基于 KIPT 框架,大模型训练前期利用小模型作为 Teacher 指导大模型帮助大模型快速收敛。 我们在双塔这个匹配的场景上做了一个实验:假如我们有一个已经训好的 55 兆大小的匹配模型,现在我们可以通过让模型变大来增强效果,实验右边是我们在几个数据集上的一个评价。 样本价值背后的逻辑是假设左边是大模型的 Loss,右边是小模型的 Loss,如果大模型的 Loss 大于小模型的 Loss,说明大模型还没有学会这条样本,小模型已经学会了,小模型可以反哺大模型;如果两个

    86720编辑于 2022-11-17
  • 来自专栏灯塔大数据

    每周学点大数据 | No.58协同过滤模型(上)

    NO.58 协同过滤模型(上) Mr. 王:为了能够有效地利用其他用户的评价来进行更有效的推荐,人们提出了协同过滤的推荐模型。 小可:那什么是协同过滤模型呢?它又有哪些优势呢? Mr. 王:先说说协同过滤的思想。既然认为他人对一个项目的评价是有一定价值的,我们就要尝试去利用他人对一个项目的评分来考察该项目的好坏。 王:我们将这种思路形式化,协同过滤就是当我们研究用户x 时,去找到与x 有相似 评分的用户集合N,根据N 中用户的评分估计x 的评分。 ? 小可:原来是比较两个人之间的评分啊。 这是协同过滤依照的一个基本假设。那么现在的问题就归结为,我们如何去发现相似的用户呢? 下期精彩预告 经过学习,我们了解了一下了解了协同过滤模型。在下一期中,我们将进一步研究一下协同过滤模型中涉及到的具体问题,更加详细的过滤模型。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

    86390发布于 2018-04-04
  • 多机器人协同首现基础模型技术突破

    多机器人协同首现基础模型技术突破大型语言模型等基础模型引入了AI新范式:无需数据标注,通过海量数据自监督训练的大模型可学习通用能力。该范式最著名的应用集中在语言、图像和视频生成领域。 技术挑战与解决方案为何需要基础模型? 尽管清楚机器人的运行算法,但实时模拟数千台机器人的交互需消耗巨额计算资源。相比之下,学习型模型能快速推断交通流模式。 研究证实,与其他基础模型类似,机器人集群模型的性能随训练数据量增加持续提升。 四种实验模型 所有模型均将作业场地建模为网格单元,包含机器人(载货/空载)、障碍物、存储位等元素。 性能评估采用动态时间规整距离和拥堵延迟误差两项指标评估:以机器人为中心模型在多数指标表现最优图-场地模型以1300万参数量取得接近效果图像-场地模型因卷积网络不适用像素级预测而效果不佳扩展实验表明,模型性能随训练数据量增加持续提升

    21610编辑于 2025-10-09
  • 来自专栏灯塔大数据

    每周学点大数据 | No.59协同过滤模型(下)

    NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: 此时式中,Sij 表示的是i 和j 两种项目的相似度。 进行比赛的环境就是我们的协同过滤模型处理的那种环境,现有一些观影者对一些电影评分的矩阵,参赛者要用自己的模型进行处理,去预测矩阵中的缺失值。 它就利用了我们今天要讨论的潜在因素模型,对数据进行了多尺度建模。 它不仅考虑了我们前面讨论的全局特征,还研究了用户/ 电影的总体偏差、区域特征、局域特征,在这些特征的影响之下,基于协同过滤模型进行评分估计,最终获得冠军。 下期精彩预告 经过学习,我们了解了一下了解了协同过滤模型涉及到的一些具体问题。在下一期中,我们将进一步研究磁盘算法实践。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

    89450发布于 2018-04-04
领券