首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏存内计算加速大模型

    架构优化:为模型提升铺平道路

    然而,模型的高效运行离不开强大的支持,而存架构的优化则是提升的关键所在。本文将探讨现有模型的需求以及RRAM架构优化如何为模型提升提供动力,为开发者提供一些实用的指导。 需求指数级增长,模型参数指数级增长。经过大规模预训练的模型,能够在各种任 务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等。 随着海量数据的持续 积累、人工智能多样化与算法的突破,模型参数规模呈现指数级增长,先后经历了预 训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现百万亿级突破。 与此同时,需求也呈现指数级增长。从行业分布上看,模型的应用领域逐步从学术拓 展至产业,2010 年后产业界对模型的应用与需求显著增长,成为主导力量。AI 期刊论文与开源项目快速增长。 基于RRAM的CIM架构通过一系列创新的优化策略,为模型的加速提供了有效的解决方案。这些优化不仅提高了模型的运行效率,还降低了能耗和硬件成本。

    1.1K10编辑于 2024-05-14
  • 来自专栏大模型应用

    模型应用:分层治理:基于模型四层匹配体系的优化方案.72

    ​一、引言 模型的应用,成了我们逃脱不开的话题,往往我们在谈到模型应用这个事情,焦虑似乎成了我们都会遇到的痛点。 的三层核心构成这是模型的底层骨架,三层必须相互匹配,就像“木桶效应”,最短的那块板决定最终上限。 比如在模型推理时,采用显存优化,如量化、剪枝,减少数据搬运量,匹配显存带宽。2. 实时生成场景(如模型对话、AI 文案生成):对响应速度要求高,通常<1 秒,对的单卡推理效率要求高,适合使用中等规模集群,采用低延迟推理优化,如模型量化、剪枝、KV Cache 优化,避免使用大规模集群 模型微调场景(如行业大模型微调):对计算算和访存都有较高要求,适合使用中等规模集群,采用微调专用优化,如 LoRA 技术,减少参数更新量,降低需求,实现业务需求与规模的精准匹配。

    20643编辑于 2026-04-10
  • 来自专栏科技云报道

    更要“利”,“精装”触发模型产业新变局?

    自生成式人工智能服务(AIGC)和GPT模型训练爆火后,围绕、算法和数据相关的讨论此起彼伏,国产模型应用更是呈现出“千模大战”的状态。 众所周知,模型是一项“烧钱”的业务,而“烧钱”的最主要原因由于模型的计算复杂度很高,每次训练都需要使用大量的来进行计算和推理。 模型的需求是显而易见的,但更关键的点可能在于能否把更高效地挖掘出来。在不同的阶段,企业对于需求也不尽相同。 定制化方面,宁畅围绕用户实际应用场景和需要,可以为用户定制对应各种需求的解决方案,方案完整覆盖用户交付、部署、应用、运维体验和业务需求,本身就涵盖了硬件、软件平台搭建、算法模型优化、应用场景定制等内容 同时,还确保了芯片在长时间高负载运行下的性能稳定输出,为模型的训练和推理提供了坚实的支撑。 在“软装”层面,宁畅提供从集群、算子再到模型软件优化的全局服务和涵盖存网管用全体系优化

    86400编辑于 2025-03-04
  • 来自专栏大模型应用

    模型应用:拆解模型需求:是什么?怎么衡量?如何匹配?.64

    模型而言,核心体现在“单位时间内完成矩阵乘法、注意计算等核心操作的次数”。 2. 与显存、模型的协同三者并非孤立,而是形成“三角支撑”关系,缺一不可:显存决定:能否装下模型决定:模型运行速度内存决定:模型加载效率只有三者匹配,才能让模型流畅运行,其中任意的缺陷都会导致效率偏差或运行失败 ,模型则需双卡 4090 或更强设备。 优化硬件调度,充分释放关闭后台占用:确保显卡仅运行模型,关闭其他GPU加速程序(如游戏、视频渲染);更新驱动与框架:安装最新NVIDIA驱动、PyTorch框架,优化显卡调度效率;多卡分片均衡 五、总结 力作为模型运行的核心支撑,其本质是硬件的计算效率,与显存、模型参数、精度形成紧密协同关系,脱离谈显存,模型只能“跑起来”却无法“跑流畅”;脱离模型,则会造成硬件资源浪费

    80864编辑于 2026-04-02
  • 来自专栏深度学习与python

    AI 模型竞争白热化,优化才是“超车点”?

    近日,InfoQ 采访了大禹智芯联合创始人 /CTO、IEEE 国际顶会 HPCA 名人堂成员蒋晓维博士,英特尔院士、大数据技术全球 CTO 戴金权,以期探索 AI 模型时代下的困局破解路径,寻求优化最优解 毫无疑问,AI 模型的训练是一个“非常昂贵的过程”。所以也有观点认为,成本是限制 AI 模型和生成式 AI 发展的因素之一。 “除了在软件、模型和算法层面进行多维度的优化之外,CPU 通用计算领域的发展历程可以为模型领域的成本优化提供一些借鉴意义”。蒋晓维提到。 优化探索与实践 在降低成本之外,如何更好地利用、提升的效率也是业界亟待解决的问题。而如何将计算能力分布式化、构建分布式计算能力,正是优化的前提。 优化探索与实践 在具体的优化探索与实践中,蒋晓维表示,作为一家 DPU 公司,大禹智芯关注的是分布式集群模型领域的优化,主要集中在从单机单卡到多机规模的优化

    84230编辑于 2023-08-09
  • 来自专栏腾讯技术工程官方号的专栏

    模型力推演优化实战

    作者:zhenfei 阅读帮助 第一部分为看清:模型的训练及推理过程是如何的,以及内部逻辑 第二部分为理解:模型的训练及推理和的关系 第三部分为推演:用简单的公式量化模型的需求 第四部分为优化 :我们如何提高利用率 一、看清 1.1 模型训练 我们以投篮训练为例,来尝试理解模型的训练过程。 有了如上的验证,我们推演下业界一些公开模型数据: 四、优化 至此,所有的力推演部分结束,下面我们来简单看一组数据 由上图可以看到,不论是训练还是推理,利用率都不是特别高,这其实对于大规模的模型推广是一阻碍 目前已知的各大互联网公司都在囤卡,寻求抓住模型的机遇,所以能得到多少张 GPU 卡也存在一定的不确定性;如何能够高效利用 GPU 也可以反向推动项目的进展,从另一个角度破除瓶颈'卡脖子' 优化分析的一些现状 结束语 随着混元的落地,LLama2 的开源,会有更多的预训练模型和推理模型的资源利用优化、评估的事情,这也是我们下阶段工作(评估、性能优化)的一个开端,欢迎对模型优化感兴趣的同学一起交流沟通

    2.2K40编辑于 2023-08-25
  • 来自专栏新智元

    即王道!千亿级AI模型,没有「网」怎么行?

    模型,好使! 每次提到模型都避不开的就是: 1750亿参数的GPT-3。 为了训练GPT-3,微软新建了一个搭载了1万张显卡,价值5亿美元的中心。 但因为推理的结果直接提供给终端用户,所以更关注用户体验方面的优化。 这也就意味着人工智能计算中心需要具有全栈性这个特点,覆盖到各种不同的需求。 此外,人工智能计算中心的建设还需要形成一个生态。 汇聚:连接不同节点的高速网络,实现跨节点之间的合理调度,资源弹性分配,从而提升各个人工智能计算中心的利用率,实现对于整体能耗的节省,后续可支持跨节点分布学习,为模型的研究提供超级。 生态汇聚:采用节点互联标准、应用接口标准,实现网络内模型能力开放与应用创新成果共享,强化跨区域科研和产业协作。 各地中心就像大脑中数亿个突触,人工智能网络正如神经网络。 如此看来,网络的重要意义之一便是通过汇聚大数据+,使能了模型和重大科研创新,孵化新应用。 进而实现网络化,降低成本,提升计算能效。

    2K60发布于 2021-10-12
  • Coze玩转ChatGPT-4,存解决模型

    本篇文章将从费用和两个方面出发,先介绍一种免费使用ChatGPT-4的工具——Coze,再介绍可有效解决模型需求的存架构。 二.模型及存架构上一章节介绍了一种免费使用ChatGPT-4的工具,可以解决ChatGPT-4的费用问题,下面我将简单介绍ChatGPT-4引出的模型需求,并介绍一种解决方案——存架构。 如图44所示,模型需求增长速度约为750倍/2年,而芯片增长速度则仅为3.1倍/2年模型需求与芯片的不匹配已经成为当前主要矛盾。 图 44 模型训练需求与芯片增长速度的对比[5]模型的训练和推理不仅计算密集,而且极度依赖数据传输效率。 这种架构能显著提高数据处理速度,降低能耗,是解决模型需求的一种具有极大前景的技术。根据计算范式的不同,存一体可以主要分为模拟式和数字式两种[6]。

    2.5K10编辑于 2024-05-14
  • 来自专栏机器之心

    模型,如何越过AI门槛

    机器之心发布 机器之心编辑部 入局 AIGC,首先需要跨越对 AI 资源的考验 语言模型(LLM)的出现让人工智能的发展迈入新的阶段,也为其他许多行业打开了广阔的想象空间。 上月,彭博社发布了金融领域的垂类模型 BloombergGPT,基于开源的 GPT-3 框架,使用彭博社的金融大数据进行训练,展现出了极强的应用潜力,也充分印证了一点: 对于那些拥有丰富的领域专业知识和数据的公司 例如,可训练和部署 AI 聊天机器人,运行 DeepStream 流分析工具包,训练推荐系统 DLRM 模型,以及为数据科学家、数据工程师提供从数据准备、模型训练到预测的全流程加速支持。 在管理部署层面,宁畅可为用户提供稳定灵活的支持,以池化,弹性扩容,充分提升利用率。此外,宁畅还能够实现集群部署,按需调整,以集群的水平支持应用。 面对上百亿、千亿乃至万亿规模的训练参数,如何构建符合自身业务特点和需求的 AI 平台,进行计算资源的合理配置,让真正转化为生产

    1K30编辑于 2023-04-21
  • 来自专栏大模型应用

    模型应用:模型优化方案:识别突破隐性瓶颈达到效能最大化.65

    一、引言 在模型落地实践中,我们都会面临一个共性困惑:明明显卡达标、模型量化适配,实际运行时却始终跑不满,甚至出现卡顿、显存溢出等问题。 接下来我们就好好分析分析这些浪费的隐性痛点,从系统、模型、数据三维度拆解全链路优化逻辑,通过经验诊断进行优化达到用好的结果,实现效能最大化。二、隐性瓶颈1. 默认注意机制中,部分QKV矩阵维度存在无效运算,通过“注意头裁剪”可减少20%消耗,效果损耗仅3%;注意头太多会导致大量无效运算模型常用多头注意机制,但实际应用中30%~50% 的注意头对结果几乎没贡献 边缘部署3.1 低功耗场景:平衡与功耗核心目标:在嵌入式GPU(如Jetson Orin、NVIDIA AGX Xavier)上部署模型,适配边缘设备低功耗、低延迟需求。 内置,优化数据加载效率,解决数据级瓶颈六、总结 其实模型优化,本质不是堆硬件,而是把现有硬件的潜力榨干,关键就抓三条:找对瓶颈、按需适配、量化验证,这也是从理论落地到实战的核心逻辑。

    32643编辑于 2026-04-03
  • 来自专栏大模型应用

    模型应用:矩阵乘加(GEMM)全解析:模型消耗的逻辑与优化.68

    这一公式是模型测算公式的底层核心,模型中的GEMM运算本质是高维矩阵乘法,其运算量直接决定了整体需求,后续测算的简化与校准均基于此公式展开。 手动统计与公式计算的误差接近0,验证了公式的准确性,为后续模型测算提供了坚实的理论支撑。3. 四、GEMM与模型测算公式的关联大模型推理算测算公式(INT8精度:=参数量×序列长度×并发量÷100),本质是GEMM运算量的工程简化与校准。1. 综合以上因素,理论运算量经过系数校准(÷100)后,最终得到工程可用的简化公式,既保留核心逻辑,又降低了测算难度,适合快速估算模型推理的需求五、GEMM运算的优化策略GEMM运算的效率直接决定模型推理的利用率 低精度量化优化低精度量化通过降低矩阵元素的位宽,减少单次GEMM运算的字节数,在保证精度可接受的前提下,显著提升单位的运算效率,是模型推理的核心优化手段。

    38232编辑于 2026-04-06
  • 来自专栏新智元

    模型只有参数和?这款国产模型证明:落地为王!

    ---- 新智元报道   编辑:好困 David 【新智元导读】搞模型,什么最重要?突破天际的参数规模?不差钱的海量?还是一刷再刷的SOTA?这些可能都不是! 从结果上看,国网-百度·文心模型不仅提升了传统电力专用模型的精度,而且大幅降低了研发门槛,实现了、数据、技术等资源的统筹优化。 巨大的参数规模,以及不同模型平台之间的差异,给训练带来了极大的挑战。 在并行训练策略上有创新,对异构硬件支持自适应并行训练,打造了框架与、算法相结合三位一体的模型训练解决方案,实现了端到端的极致性能优化。 如果说拥有自己的、算法是一个科技公司的本职;那一口气发布10个模型,形成基础模型、任务模型、行业大模型三级模型体系,并在产业里持续埋头深耕,大概更符合飞桨「源于产业实践,服务于产业应用」的建设思路

    2.1K20编辑于 2022-05-30
  • 来自专栏深度学习与python

    零一万物李谋:当模型推理遇到瓶颈,如何进行工程优化

    在 AICon 全球人工智能开发与应用大会 暨 模型应用生态展·2024 上,InfoQ 邀请到了零一万物资深算法专家李谋发布演讲分享,他将结合模型的的需求和模型结构,详细介绍零一万物在构建 Yi 为了让听众了解更多的内容,我们提前采访了李老师,以下为内容纪要: InfoQ:您在演讲中提到了模型需求及其增长趋势,可以详细介绍一下目前模型在推理过程中所面临的主要挑战是什么? 针对这种快速增长的需求,您认为目前的技术和资源是否足以应对? 李谋: 模型的计算主要分为训练和推理两个步骤,他们对于的侧重点不太一样。 李谋: 优化延迟比优化吞吐要棘手一些,首先最好的情况是有条件购买更强大的硬件,或者从硬件设计的角度上去降低延迟。 InfoQ:除了硬件加速器和分布式并行加速外,是否还有其他类型的加速技术或者优化手段可以用于缓解模型推理的压力?

    73910编辑于 2024-05-06
  • 来自专栏GiantPandaCV

    工程部署(三): 低平台模型性能的优化

    【GiantPandaCV导语】 此文讨论如何在低端的移动设备上提高模型性能,文章针对模型(不改变模型原有op情况下,不需要重新训练)和后处理两部分的优化开展讲解,若有不当之处,望批评指出! 一、模型优化 1.1 op融合 此处的模型优化指的是我们常说的模型卷积层与bn层的融合或者conection,identity等结构重参化的操作,改想法来源于某天无意参与的一次讨论: 大佬的想法认为 fuse是可以做的,但没那么必要,fuse(conv+bn)=CB的作用在于其他,而对于提速的作用微乎及微,不过本人更加坚持自己的观点,因为yolov5的对比是基于高显卡,低端卡,甚至无GPU,NPU (stride=2)的组件就使用了两个深度可分离卷积: 光是一整套网络就用了25组depthwise conv(原因在于shufflenet系列为低cpu设备设计,无可避免复用大量深度分离卷积) 、计算量和参数量都有明显变化,下图为重参化前后的模型参数和计算量、模型结构:: 在这里插入图片描述 二、后处理 2.1 反函数操作 后处理的优化也同样重要,而后处理优化的目的在于减少低效率循环或判断语句

    1.3K30编辑于 2022-02-11
  • 来自专栏【腾讯云开发者】

    “GPT们”背后,谁来支撑模型训练需要的极致

    其技术基座模型的给支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么? 因此要充分发挥 GPU 计算资源的强大,必须构建一个全新的高性能网络底座,用高速网络的带宽来助推整个集群计算的高效率。   从集群的角度,相当于用同样的计算资源,超带宽网络能将系统提升48%。 图5. T5-MoE模型训练性能 上图是对 T5-MoE 模型的实测性能数据,主要通信模式是 All-to-All 。 同样可以看到,在64 GPU 模型下,1.6Tbps 带宽下的单次迭代训练耗时降低64%。从集群的角度,相当于用同样的计算资源,超带宽网络能将系统提升 2.8 倍。   ,GPU集群网络架构也需要不断迭代升级,才能保证系统的高利用率与高可用性。

    3.2K20编辑于 2023-03-24
  • 来自专栏腾讯云 DNSPod 团队

    “GPT们”背后,谁来支撑模型训练需要的极致

    其技术基座模型的给支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?

    46420编辑于 2023-04-02
  • 来自专栏AI科技评论

    AI 模型开源之困:垄断、围墙与之殇

    3 不可承受之重: 模型开源的重要性是共识,但通往开源的路上还有一个巨大的拦路虎:。 这也正是当前模型落地所面临的最大挑战。 所以我们不得不直面模型开源后的窘境,那么,有哪些解决办法? 我们首先从本身的角度来考虑。未来大规模计算机群、中心的建设肯定是一个趋势,毕竟端上的计算资源终归难以满足需求。 「现在一张卡可以跑(就推理而言)一个十亿模型,按目前的增长速度,等到一张卡可以跑一个千亿模型也就是要得到百倍提升,可能需要十年。」张家兴解释。 模型的落地等不了这么久。 另一个方向是在训练技术上做文章,加快模型推理速度、降低成本、减少能耗,以此来提高大模型的易用性。 模型结构上的探索创新与开源相互促进,我们需要更多开源来激发模型技术的变革。 阻碍模型开源的,除了模型成本导致的低可用性,还有安全问题。

    75130编辑于 2023-04-12
  • 来自专栏自然语言处理(NLP)论文速递

    拓展技术边界,掌握AI语言模型微调(LLaMA)方法 【赠

    作为算法工程师的你是否对如何应用大型语言模型构建智能问答系统充满好奇?是否希望深入探索LLaMA(类ChatGPT)模型的微调技术,进一步优化参数和使用不同微调方式? 一、训练(微调)-多GPU训练 当单GPU单张卡无法支撑模型的训练效率、无法放下一个模型,当业务对训练速度有一定要求,需要成倍的提高训练效率的时候,就需要GPU集群的技术来处理。 目标:优化存储效率的同时还能保持较高的计算和通信效率。 为了能够在比较普通的机器上也能微调模型,我们首先需要分析一下模型训练过程中都有哪些部分需要消耗存储空间。 在进行深度学习训练的时候,有4部分的显存开销,分别是模型参数(Parameters),模型参数的梯度(Gradients),优化器状态(Optimizer States)以及中间激活值(Intermediate 基于模型的内在低秩特性,增加旁路矩阵来模拟全模型参数微调,LoRA通过简单有效的方案来达成轻量微调的目的,可以将现在的各种模型通过轻量微调变成各个不同领域的专业模型

    1.1K30编辑于 2023-10-24
  • 来自专栏coderidea

    训练模型到底是为王,还是数据为王

    在本文中,我们将探讨训练模型究竟是难获得还是数据难获得的问题,并提供一些深入的例子来支持这一讨论。 的挑战 训练深度学习模型通常需要大量的,特别是在自动驾驶领域。 它们非常昂贵,许多组织和研究人员无法轻松获得足够的来进行训练。这是难获得的一方面。 数据的挑战 另一方面,数据也是训练自动驾驶模型时的关键挑战。 而更多的也可以用来加速数据集的创建和标注,例如,使用大规模计算集群来自动处理传感器数据和生成标签。 因此,解决训练自动驾驶模型的难题需要综合考虑和数据。 这些硬件可以大大加速深度学习模型的训练和推理,降低了难 获得的问题。 此外,一些云计算提供商也提供了深度学习的租赁服务,这使得许多组织和研究人员能够获得所需的计算资源,而无需购买昂贵的硬件。 结论 训练自动驾驶模型的挑战既包括难获得,也包括数据难获得。这两个问题之间存在相互作用,需要综合解决。幸运的是,随着深度学习硬件的发展和数据共享的兴起,自动驾驶技术的研究和开发变得更加可行。

    70430编辑于 2023-11-06
  • 来自专栏又见苍岚

    模型运算量、显卡说明

    关于深度学习的、计算量存在很多单位,本文记录相关内容。 概念 指计算设备(GPU、CPU、NPU等)完成计算的能力大小,一般评价指标为在单位时间内完成的运算次数 计算量 指模型推断过程中需要的运算量,一般用来评价模型规模以及推断运行时间 常用单位 单位类型 TOPS和FLOPS指的是每秒的计算量,算是速度方面的,用在芯片性能上。FLOPs指的是深度学习模型自身的计算量,算是体量方面的,用在深度学习模型本身参数计算量上。 下图为nvidia-A100/H100部分信息,可对比TOPS/TFLOPS区别。 对于描述模型的 TFLOPs 网络 运算量 AlexNet 对于AlexNet处理224*224的图像,需要1.4G FLOPS ResNet-152 对于224*224的图像,ResNet-152

    3.3K10编辑于 2024-03-05
领券