首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏存储公众号:王知鱼

    模型推理的KVCache小IO瓶颈解析

    引言:模型推理的“内存墙”与I/O挑战 在大型语言模型(LLM)从实验环境走向大规模生产部署的过程中,计算范式经历了一场深刻的转变。 随着模型参数量突破千亿(如Llama-3-70B, DeepSeek-V3)以及上下文窗口(Context Window)扩展至128k甚至1M token,推理系统的核心瓶颈已从传统的浮点运算能力(FLOPs 综合案例分析:Llama-3-70B在混合负载下的瓶颈模拟 为了更直观地理解上述原理如何转化为实际瓶颈,我们以Llama-3-70B模型为例进行理论推演。 结论与技术演进展望 通过深入拆解模型KVCache的生成与更新机制,得出以下核心结论: KVCache生成的物理二象性决定了I/O优化的方向必须是分层的:Prefill阶段需要高吞吐写入,Decode 算法层面: 发展ShadowKV或InfiniGen等技术,将KV分离,仅保留极小的高频访问索引在GPU,将容量数据转化为极稀疏的按需读取 17。

    68410编辑于 2026-03-09
  • 来自专栏MavenTalk

    开源社区模型目前面临的8瓶颈问题

    但面对商业化的ClosedAI和OpenAI等语言模型,还存在一些瓶颈。 数据量不足,预训练数据有限 开源社区很难获得大规模高质量的数据集来进行模型预训练,导致其模型质量无法与业内巨头相提并论。 数据量的不足直接限制了模型的表达能力和推理能力。 算力资源有限,GPU/TPU数量相对较少 开源社区几乎没有足够的GPU/TPU来训练超大规模的模型参数,很难进行长时间的预训练,无法匹敌巨头公司拥有的算力优势。算力的缺乏是开源模型质量提升的硬限制。 商业化受限,收入有限,难以持续投入 开源社区很难直接通过模型商业化来获得持续的财务支持,长期投入会面临资金短缺问题。 模型泛化、可解释性与安全性等方面有待提高 开源模型的可解释性和安全性还需要加强,部署时存在不确定性,这也是限制其应用的一个因素。

    59830编辑于 2023-09-06
  • 来自专栏数据猿

    密态计算,模型商用数据瓶颈的新解法?

    无论是模型的训练还是推理应用,都存在数据瓶颈模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在模型训练和推理应用两个阶段: 模型训练阶段,行业数据分散在不同机构 模型推理应用阶段,模型厂商与企业客户之间的信任缺失问题难以解决。 除了数据分散问题,模型厂商与企业客户之间的信任问题也是一个重大障碍。 一方面,模型厂商在将其模型交付给企业客户时,普遍担心模型资产被客户窃取。另一方面,企业客户担心模型厂商会窃取或滥用他们提供的数据,导致商业机密和用户隐私泄露。 不同的隐私计算技术,如差分隐私、多方安全计算和联邦学习,各有其优劣,但在实际应用中往往面临性能瓶颈和复杂性问题,难以满足大规模商业应用的需求。 隐语 Cloud 模型密算平台的原理和特色 资料来源:蚂蚁集团 在模型密态托管方面,模型提供方将模型加密后托管在平台上,通过先进的加密算法进行分段加密处理,确保模型在云端存储过程中的安全。

    74910编辑于 2024-07-16
  • 腾讯模型信贷助手:破解对公信贷尽调效能瓶颈

    部署模型信贷助手全周期智能解决方案 基于混元语言模型与混元多模态模型,腾讯推出模型信贷助手,形成覆盖信贷全流程的多源异构材料结构化提取与分析综合解决方案。 undefined核心技术: 混元语言模型突破KV提取、语义跟随、幻觉控制瓶颈,打造“聪明严谨大脑”; 混元多模态模型突破文档长度(支持200MB以上超大文档)、复杂版面、元素识别瓶颈,提供“ 呈现效率与精度双升的量化业务价值 应用现状显示,模型能力覆盖95%信贷工作内容,关键指标如下(数据来源:产品功能说明及效果图表): 人工审核采纳率93%; 工作效率提升10倍; 报告生成时长从 实证某金融机构落地应用的效能跃迁 在某大模型应用厂商及互联网券商企业落地中,该模型针对年报、财报等超长复杂文档处理表现出色。 总结腾讯模型信贷助手的技术领先性与适配价值 选择腾讯的核心在于: 技术确定性:依托混元通用模型及混元专属模型(场景化微调),整合模型智能体开发平台(TCADP)、训推一体平台(Ti-ONE)

    15910编辑于 2026-04-25
  • 来自专栏机器之心

    103K「硬核」题,让模型突破数学推理瓶颈

    本文的通讯作者为涂兆鹏,腾讯混元数字人专家研究员,研究方向为深度学习和模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 10000 次,担任 SCI 期刊 NeuroComputing 副主编 然而,当前语言模型(LLM)在数学推理,特别是通过强化学习(RL)进行训练时,正面临着前所未有的数据瓶颈:现有数据集普遍缺乏挑战性和新颖性、答案难以验证,且常与评估基准存在 “污染” 问题。 这种难度分布明显偏向高难度,旨在推动当前模型的推理极限,与现有其它数据集形成鲜明对比。 2. R1 解决方案:由 DeepSeek-R1 模型生成的三种不同的推理路径。这些多重解决方案对于监督微调和模型蒸馏等多种训练范式都具有巨大价值。 它不仅解决了数据瓶颈问题,更通过其独特的设计和卓越的性能,证明了精心构造的高质量训练数据在推动 AI 前沿方面的深远价值。

    42100编辑于 2025-06-12
  • 来自专栏IT技术订阅

    DeepSeek EP并行专家通信技术解析:打破模型训练瓶颈

    随着模型规模的不断扩大,传统的通信机制逐渐暴露出瓶颈,难以满足高效并行计算的需求。在此背景下,DeepSeek开源的DeepEP通信库应运而生,为解决这一问题提供了新的思路和技术方案。 然而,传统的通信库在处理这种复杂的全对全(all-to-all)通信时,往往存在带宽瓶颈和延迟问题,导致训练效率低下。此外,MoE模型的训练和推理过程对通信的实时性和资源利用率提出了更高的要求。 为了解决这些问题,DeepSeek开源了DeepEP通信库,专为MoE模型设计,旨在通过优化通信机制,打破模型训练和推理的瓶颈,提升分布式计算的效率。 通过这种优化,DeepEP能够在不同带宽的通信链路之间实现高效的数据传输,避免了因带宽瓶颈而导致的性能下降。 三、DeepEP通信库的实际意义 (一)提升训练效率 在大规模分布式训练中,通信效率是制约模型训练速度的关键因素之一。传统的通信机制往往存在带宽瓶颈和延迟问题,导致模型的迭代速度缓慢。

    1.3K00编辑于 2025-02-27
  • 来自专栏大模型应用

    模型应用:模型算力优化方案:识别突破隐性瓶颈达到效能最大化.65

    一、引言 在模型落地实践中,我们都会面临一个共性困惑:明明显卡算力达标、模型量化适配,实际运行时却始终跑不满算力,甚至出现卡顿、显存溢出等问题。 瓶颈定位:诊断问题根源的三个层级: 系统级:CUDA、驱动、操作系统层面问题模型级:模型架构设计导致的效率问题数据级:数据加载和处理流程的瓶颈3. 针对性优化:根据定位结果执行具体优化措施4. ,支持大多数开源模型局限性: 推理速度提升有限(主要省显存,未深度优化计算路径)不支持 TensorRT 或 CUDA kernel 定制,吞吐不如专用方案适用场景: 个人开发者、研究者快速部署模型; 、总结 其实模型算力优化,本质不是堆硬件,而是把现有硬件的潜力榨干,关键就抓三条:找对瓶颈、按需适配、量化验证,这也是从理论落地到实战的核心逻辑。 ,量化+蒸馏双管齐下,让模型在嵌入式设备上高效运行。

    32443编辑于 2026-04-03
  • 来自专栏新智元

    首个科学计算基座模型BBT-Neutron开源!突破科学装置数据分析瓶颈

    新智元报道 编辑:LRST 【新智元导读】语言模型能否解决传统语言模型在大规模数值数据分析中的局限性问题,助力科学界科学装置设计、高能物理领域科学计算? 其中,研究人员从粒子对撞实验出发,探索了语言模型科学装置数据分析与科学计算领域的全新应用场景—— 具体来说,团队将其最新研发的科学基座模型BBT-Neutron应用于粒子对撞实验,模型采用了全新的二进制分词方法 图4:喷注味鉴别准确率(上)以及电荷误判率(下)与训练数据量的关系 二进制分词:统一多模态数据处理,突破数值数据分析瓶颈 近年来语言模型在文本处理、常识问答等任务上取得了显著进展,但在处理大规模数值数据方面依然面临挑战 传统的BPE分词方法在分词数字时可能会引入歧义和不一致,特别是在高能物理、天文观测等领域,分析复杂的实验数据成为瓶颈。 BBT模型发展历程 2022年:发布BBT-1,10亿参数的金融预训练语言模型; 2023年:发布BBT-2,120亿参数的通用语言模型; 2024年:发布BBT-Neutron,1.4亿参数的科学基座语言模型

    46810编辑于 2025-02-15
  • 来自专栏机器之心

    模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

    本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为模型智能体,语言模型,个性化算法等。 近年来,随着语言模型的快速发展,基于其构建的模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。然而,真正实现规模化应用仍面临诸多瓶颈。 这一现象引发了一个关键问题: 当前制约模型智能体实际可用性的真正原因是什么? 上海交通大学联合中科大在本文中指出:现阶段模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。 Real Barrier to LLM Agent Usability is Agentic ROI 论文链接:https://arxiv.org/pdf/2505.17767 Agentic ROI:模型智能体实现规模化应用的关键瓶颈

    34200编辑于 2025-06-10
  • 来自专栏NewBeeNLP

    向量检索模型落地:瓶颈及解法!

    作者 | Maple小七 整理 | NewBeeNLP 稠密向量检索巨大的内存占用一直是限制其落地的一瓶颈。 Redundancy Elimination to Compress Dense Vectors for Passage Retrieval Introduction 近两年来,以DPR为代表的稠密向量检索模型在开放域问答等领域得到了广泛的应用 PCA利用特征分解将一组可能存在相关性的向量变换到线性无关的特征向量构成的的坐标系下,并保留方差较大的方向,丢弃方差较小的方向,而解释方差比则是度量PCA降维效果的指标: 其中 是从到小第 可以发现,在向量维度较大的时候( 、 ),无监督PCA的表现更好,当向量维度较小的时候( ),有监督微调的表现会更好,然而这时候模型性能下降得也非常明显,因此总体来说无监督PCA更有实用价值 Discussion 限制稠密向量检索模型落地的一瓶颈就是推理时延和内存消耗的问题,这篇论文通过实验证明了简单的主成分分析加上乘积量化,在辅以稀疏向量检索,就能在保证准确度的前提下大幅减少内存占用,提升检索速度

    1.5K20编辑于 2022-02-26
  • 来自专栏NewBeeNLP

    双塔模型瓶颈究竟在哪?

    为了克服query和doc的交互瓶颈,一种普遍的做法是构建多向量表示模型,从而引入轻量级的交互算子,比如ColBERT、ME-BERT、Poly-encoder、COIL等。 但这些模型通常会带来更大的查询时延和更大的存储开销。 但是,单向量表示模型的性能瓶颈真的完全在于简单的点积交互吗? 实验结果表明,「稠密检索模型瓶颈并不完全在于单个向量的表示能力不足,编码器的能力也会在很大程度上影响模型的泛化能力。」 另外,为了有效地利用模型的容量优势,训练出泛化性能更好的模型,作者还设计了一个预训练+微调的训练策略。 而作者发现使用模型除了能提指标,同时也提升了样本效率。作者尝试仅使用10%的训练数据来微调模型,并对比了不进行预训练的模型(GTR-FT)和进行预训练的模型(GTR),结果如下表所示。

    67810编辑于 2024-04-26
  • 来自专栏AI SPPECH

    105_模型微调高级优化技术:突破训练瓶颈的实践指南

    模型微调的挑战与优化概述 1.1 模型微调的核心挑战 模型微调面临的首要挑战是硬件资源的限制。 模型通常具有复杂的网络结构,包含大量的注意力机制和全连接层,这使得前向和后向传播过程计算密集。同时,分布式训练中的通信开销也会随着节点数量的增加而显著增长,成为性能瓶颈。 对于模型微调,显存节省通常比计算时间增加更为重要,因为显存往往是训练的瓶颈。根据实践经验,梯度检查点与混合精度训练结合使用,可以使单卡能够训练的模型规模翻倍。 在模型微调过程中,常见的性能瓶颈及其解决方案包括: 显存瓶颈:使用混合精度训练、梯度检查点、参数高效微调、模型并行等技术 计算瓶颈:优化数据加载、使用混合精度训练、选择合适的批处理大小 通信瓶颈:减少通信频率 探索硬件-软件协同设计,为模型微调开发专用的硬件加速器 开发自动优化工具,简化模型微调的配置和调优过程 通过不断的技术创新和实践优化,我们相信模型微调将变得更加高效、经济,使更多的研究人员和企业能够利用模型技术推动

    65410编辑于 2025-11-16
  • 来自专栏后端码匠

    【Redis】性能瓶颈:如何优化key问题?

    Spring Boot Version: ${spring-boot.version}${spring-boot.formatted-version} ${AnsiColor.BLACK} Redis性能瓶颈 然而,实际上,Redis的性能瓶颈不仅仅取决于单个key的大小,还取决于key的总数、Redis服务器的内存使用率、CPU负载以及网络带宽等多个因素。 同时,也需要对数据模型进行优化,避免出现单个key过大的情况。 key产生的原因 Rediskey问题产生的原因可能有多种,如以下原因: 数据模型设计不合理:如果数据模型设计不合理,例如将大量数据存储在一个key中,或者使用一个大型散列表或集合存储数据,就容易导致单个 rdb --commond memory --bytes 2048 --largest 10 dump.rbd 怎么解决key 数据模型优化:对数据模型进行优化,避免将大量数据存储在一个key中,

    1.8K20编辑于 2023-09-02
  • 来自专栏智算中心网络

    万亿参数模型网络瓶颈突破:突破90%网络利用率的技术实践

    GPT模型的参数量已突破万亿级别,自动驾驶训练需要处理PB级的场景数据,这些都使得AI计算集群规模呈指数级增长。 这种低效不仅造成巨额硬件投资浪费,更成为制约AI训练效率的关键瓶颈。 传统以太网的困境 网络利用率作为衡量实际传输流量与理论带宽比值的核心指标,在AI计算场景中直接决定模型训练周期。 这种效率瓶颈源于多重技术桎梏: 流量复杂度倍增:现代数据中心混合承载着AI训练的长流(Long Flow)、推理服务的短流(Short Flow)、存储复制的大包(Jumbo Frame)以及管理信令的小包 实践突破 作为UEC核心成员,星融元通过三技术创新将网络利用率推升至90%: Flowlet 前面提到,基于流的ECMP容易造成负载不均衡,而包喷洒技术又带来了额外的延迟。有没有两全其美的技术? 随着AI模型参数规模突破10万亿,超级以太网正从技术概念演变为算力基础设施的关键支柱。通过架构革新与协议栈重构,网络利用率突破90%已具备工程可行性。

    75210编辑于 2025-04-28
  • 来自专栏机器之心

    专访张宏江:「模型+算力」撑开深度学习瓶颈,中国也有做出全球顶尖研究的环境

    机器之心原创 作者:闻菲 张宏江认为,智源研究院将人工智能领域的优秀人才聚在一起,探索并成功找到一个能够产生原始创新与长期影响的领域,即超大规模预训练模型;智源将围绕「悟道」巨模型构建生态系统,一方面不断去撑开深度学习的瓶颈 随着会上悟道 2.0 巨模型的发布,他认为智源研究院成立两年多以来,通过「智源模式」成功聚集起一批优秀的青年科学家,初步建立了社区,并将「模型+算力」明确作为探索通用人工智能的路径之一,而 AI 模型不仅本身是一个可能产生原始创新与长期影响的领域 用「模型+算力」把深度学习的瓶颈撑开 目前,由深度学习催生的这一波 AI 发展在理论上已经遇到瓶颈,但工程上却大有可为。 张宏江表示,悟道团队在做的,就是用「模型+算力」不断把深度学习的瓶颈撑开,让更多工程上马,更多技术落地。 「我一直相信模型本身会成为一个平台,这也是我们要围绕它建立生态系统的一个核心原因。」张宏江语气笃定。 如果将 AI 比作电力,那么模型则相当于「发电机」,能将智能在更大的规模和范围普及。

    89510编辑于 2023-03-29
  • 万兴科技以AI模型与生态合作破解数字创意出海效率瓶颈

    构建全员AI协同与国产模型双轮驱动 万兴科技通过全员智能(赋能每位员工AI工具能力)、全程智联(跨部门AI协同)和全域智控(AI决策支持)提升内部效率。 对外推出国内首个音视频多媒体模型——万兴天幕AI,并通过万兴超媒实现从分镜生成到发布的全流程自动化,显著降低创作门槛。 境外业务收入占比达94.6%(来源:万兴财报) 业务覆盖全球200+国家和地区(来源:万兴运营数据) 深度合作案例验证方案可行性 与深圳广电合作“AI科技绘梦·艺术点亮非遗”项目,天幕AI承担主力创作任务 联合七超级创作者构建数字创意生态 Server实现API服务标准化,保障全球推理加速与跨平台兼容 接入英特尔、微软等生态伙伴,强化算力与工具链整合 腾讯云技术赋能全球业务落地 腾讯云提供: 高性价比GPU算力与高效训练平台,支撑天幕模型训练与推理

    20110编辑于 2026-04-18
  • 来自专栏AIGC新知

    对话OpenAI | 预训练已经达到瓶颈?是否所有场景都必须应用模型?多模态模型怎么做?

    一、预训练已经达到瓶颈? 在模型训练领域,关于Scaling Law的瓶颈是否已经到达,目前呈现出一些复杂且微妙的态势。 从Pre-training阶段来看,其似乎已经接近瓶颈模型训练在Pre-training阶段虽然面临诸多瓶颈,但在Post-training阶段,尤其是在多模态的Post-training以及RL的应用等方面,仍存在着诸多机会和潜力。 三、今年的模型非共识哪些明年可能会变共识? 在当前模型的发展过程中,存在一些尚未形成广泛共识的观点。 是否所有场景都必须应用模型?小模型或许更加具有优势? 一方面,利用模型生成数据来训练小模型已被证明是可行的,这种方法可以充分利用模型的强大生成能力,为小模型提供丰富的训练素材,从而提高小模型的性能。 然而,反过来用小模型生成数据来训练模型则面临着诸多挑战,主要在于合成数据的质量问题。

    37010编辑于 2025-01-17
  • 腾讯模型信贷助手:以技术确定性破解对公信贷尽调效率瓶颈

    剖析对公信贷尽调人工依赖重效率低的行业瓶颈 对公信贷尽调面临材料繁杂与人工处理效能不足的双重矛盾。 推出腾讯模型信贷助手全流程智能解决方案 基于通用模型进行大规模场景化微调与应用工程开发,形成针对信贷业务全流程多源异构材料的数据要素结构化提取与分析综合解决方案,核心包括: 技术底座:依托混元语言模型构建推理提取能力 (突破KV提取、语义跟随、幻觉控制瓶颈),结合混元多模态模型构建解析能力(突破文档长度、复杂版面、元素识别瓶颈),形成“聪明且严谨的大脑”与“看清一切的眼睛”。 落地实践:模型应用厂商与互联网券商企业案例 在模型应用厂商和互联网券商企业落地时,该模型对年报、财报等超长复杂文档处理表现出色,作为业界首个支持200MB以上超大文档解析的方案,准确率较传统方案提升 选择腾讯:技术领先性与产品适配性保障 技术领先性:基于混元语言模型与混元多模态模型核心技术,突破多项技术瓶颈;具备200MB以上超大文档解析能力(业界首个),准确率提升30%;通过正向闭环微调实现一周快速适配新场景

    13210编辑于 2026-04-26
  • 来自专栏深度学习与python

    零一万物李谋:当模型推理遇到算力瓶颈,如何进行工程优化?

    编辑 | 李忠良 自 OpenAI 发布 ChatGPT 起,语言模型的惊艳效果吸引了越来越多的人和资本关注到该领域,近年模型本身的参数量和序列长度也呈指数级增长,要面对的算力瓶颈问题接踵而至。 在 AICon 全球人工智能开发与应用大会 暨 模型应用生态展·2024 上,InfoQ 邀请到了零一万物资深算法专家李谋发布演讲分享,他将结合模型的的算力需求和模型结构,详细介绍零一万物在构建 Yi InfoQ:您觉得传统模型语言模型在结构上的不同之处是什么,推理优化手段是否有差异? InfoQ:在面对算力瓶颈时,有时候需要进行折衷权衡,比如牺牲一定的模型精度以换取更快的推理速度。您是如何权衡和决策的?是否有一些通用的指导原则? InfoQ:针对目前模型推理算力瓶颈的问题,您认为未来可能出现的技术突破或发展方向是什么?

    73910编辑于 2024-05-06
  • 国产GPU全景选型与量化实践:打通模型训推的性能与生态瓶颈

    数据及观点来源:腾讯全球数字生态大会 | 城市峰会 讲师信息:罗翀(TCE智算首席架构师) 破解模型计算与访存的结构性壁垒 当前,语言模型(LLM)的训练与推理正面临截然不同的硬件资源压榨特征,行业普遍陷入算力与带宽的资源错配困境 这一过程呈现出典型的计算密集型(Compute-Bound)特征,高度依赖大规模矩阵乘法,TFLOPS(每秒浮点运算次数)成为制约模型收敛度的绝对硬件瓶颈。 落地业务场景的硬件映射表: 模型推理(>70B):算力与带宽双重高要求,推荐由原H20方案向 海光BW1000B / 紫霄V3 演进。 数据中心级高可用保障:针对万亿参数模型的万卡集群组网需求,国产硬件规格已匹配高密度机柜部署要求,实现大规模互联瓶颈突破,其实际运行的平均故障间隔(MTBF)达到 > 10万小时的安全阈值。 例如,测试场景直接嵌入了元宝模型平均输入3.5K / 输出1K的真实生产数据结构,并为搜广推应用部门独立评测并输出了多款国产卡型的真实业务表现。

    39110编辑于 2026-04-01
领券