首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • AI创业公司如何突破瓶颈,实现高效发展?

    继上一篇文章《AI创业公司面临的危机》,相信许多创业者会发现,即便拥有先进的算法和技术,依然难以避开一个巨大的障碍——成本。 我们最近调研了十几家在医疗、工业、金融等垂直领域站稳脚跟的AI创业公司,发现一个惊人事实:真正决定生死的,从来不是你有没有,而是你能不能“用好”利用率不到45%?先治好“资源浪费病”很多创业公司融资后第一件事:买GPU,拉专线,建机房。结果呢?利用率长期低于45%,大量资源在“晒太阳”。这不是危言耸听。 一位AI工程师吐槽:“我们用3家云的,结果训练速度比单云还慢,网络成了最大瓶颈。”问题本质:多云不是“保险”,而是“迷宫”。没有智能网络,多云就是一场灾难。 当你的系统能做到——■ 数据合规不出域;■ 全国访问低延迟;■ 突发流量稳如山;■ 成本降一半;——你就不再是“的附庸”,而是客户心中“最靠谱的AI伙伴”。

    46810编辑于 2025-09-10
  • 垂直堆叠3D芯片突破AI瓶颈

    凭借创纪录数量的垂直连接以及将存储和计算单元紧密放置的紧凑布局,该设计避免了限制平面芯片发展的速度瓶颈。在硬件测试和模拟中,这款3D芯片的性能比2D芯片高出一个数量级。 这可能有所帮助,但层与层之间的连接通常比较粗糙、数量有限,并且可能成为新的瓶颈。该团队采用了不同的方法。

    18310编辑于 2026-03-26
  • 来自专栏AI大模型应用开发炼丹房

    打破瓶颈:LLM推理中PrefillDecode分离架构深度解析

    在LLM推理计算中Prefill和Decode两个阶段的计算/显存/带宽需求不一样,通常Prefill是密集,Decode是访存密集。一些场景中P和D两者分开计算可提升性能。 该阶段​​计算密集​​,消耗大量。​​Decode阶段​​:基于KV缓存进行自回归迭代生成输出Token,​​访存密集​​,对显存带宽要求高。 传统部署方案将P和D整合在单一实例中,但存在显著缺陷:P阶段显存利用率低(需求高但显存闲置)。D阶段利用率低(显存需求高但闲置)。 为提升资源效率,业界提出​​KV缓存(KV Cache)机制​​,避免重复计算,并衍生出​​P与D分离部署方案​​:P实例专注高任务,生成KV缓存。 优化方向​​:​​零拷贝传输​​:减少DRAM中间复制(当前方案存在性能瓶颈)。​​全局Cache复用​​:跨请求共享Prefix缓存。 ​​

    2.8K11编辑于 2025-09-09
  • 来自专栏深度学习与python

    存储优化是 AI 瓶颈的破局之道吗?

    大数据技术领域的资深专家赵健博担任主持人,和北银金科大数据开发部总经理助理李俊、焱融科技 CTO张文涛 、 数势科技 AI 负责人李飞一起,在 Qcon 全球软件开发大会 2025 北京站即将召开之际,共同探讨 AI 瓶颈如何破局 AI 训练中的存储需求需要实现的目标是,高吞吐和低延迟的数据访问,同时确保 GPU 的得到充分利用。 分布式存储在架构设计上更灵活,而集中存储在不同知识库之间数据共享更便捷。 赵健博: 在深度学习领域中,数据是基础,是引擎。训练一个模型需要大量的数据和,并且需要反复迭代和验证才能得到想要的模型。 赵健博: 针对 AI 训练中的存储需求,我认为需要实现的目标是高吞吐和低延迟的数据访问,同时确保 GPU 的得到充分利用。 GPU 停顿的几个问题点如下:首先,在模型训练中,checkpoint 的保存过程会导致计算停顿,直接影响 GPU 的释放时间。

    51510编辑于 2025-04-04
  • 来自专栏实时云渲染

    实时云渲染助力全息影像突破终端瓶颈

    但技术落地遇阻,痛点显著:一是硬件与要求高,动态捕捉和实时渲染设备成本及运维费让中小团队难以承受;二是数据量大,本地无法满足实时处理;三是多终端适配复杂,跨国传输延迟。 突破全息影像性能瓶颈的关键技术在全息影像实时渲染中,与传输等性能瓶颈突出。云端GPU资源池化与弹性调度成为应对挑战的利器,这也是实时云渲染技术的核心能力。 借助GPU池化技术,整合分散的GPU,构建可动态扩展的资源池。 LarkXR具有PaaS平台产品能力,能智能分配,满足三维重建及高斯溅射等复杂计算需求,实现对硬件资源全生命周期管理,大幅提升异构计算资源利用率。 高精度体积视频叠加实时动捕,海量的数据引入引擎中构建了庞大的3D/XR程序,为了让更多的人能够体验使用,两年来不断寻找突破瓶颈的方案,以便能提供流畅高品质的内容输出。

    51110编辑于 2025-03-20
  • 来自专栏机器之心

    CVPR 2025 | 解决XR瓶颈,FovealSeg框架实现毫秒级IOI分割

    瓶颈谈起 在当下主流的 AR / VR 头显中,内置相机往往具备 720 P、1080 P 乃至 1440 P 的拍摄能力,但要想在如此高分辨率的画面上做实例分割,推理延迟常常飙升至数百毫秒甚至秒级 在当前 XR 终端有限的背景下,它为 “毫秒级 IOI 分割” 提供了切实可落地的方案;随着更高精度、低延迟的眼动传感器普及,以及多 IOI 并行、多任务融合的需求升温,foveated 视觉计算或将成为

    37010编辑于 2025-06-10
  • 来自专栏产品经理的人工智能学习库

    – computation

    文章目录 人工智能里的是什么? 在普通电脑中,CPU就提供了帮助电脑快速运行。玩游戏的时候需要显卡提供,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像,机器越好越先进,制造的过程就越快。 ? 越大,速度越快 维基百科版本 Techpedia版本 是使用计算机技术完成给定目标导向任务的过程。 可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。是现代工业技术的一个至关重要的组成部分。

    2.6K30发布于 2019-12-18
  • 来自专栏大语言模型,算力共享

    共享:环形结构的分配策略

    ​目录共享:环形结构的分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)共享:环形结构的分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy

    91920编辑于 2024-07-26
  • 来自专栏科技云报道

    之后,“存”上位

    芯片的摩尔定律逐渐逼近物理极限,存开始从幕后走向台前,成为AI领域下一个关键赛点。 长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。 存中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和。 在训练方面,高性能并行文件系统可以提升大模型训练效率,超大带宽和容量支持超万卡集群无瓶颈扩展,EB级扩展能力适应海量数据,加速卡直通技术使数据从存储到“一跳直达”。 构建AI时代新型 “数据粮仓” 与聚焦在“”不同,数据存聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 将目光投向更长远,新型AI存储很可能是撬动人工智能时代杠杆的另一个支点,“以存强”“以数助”亦是弯道超车的重要落点。当AI产业具备扎实的存底座,才能登高远眺,看见AI时代最美的风景。

    40400编辑于 2025-06-19
  • 来自专栏科技云报道

    更要“利”,“精装”触发大模型产业新变局?

    面对如此巨大的需求,企业如何在平衡与能耗开支的前提下,高效地利用和管理算资源,是实现降本增效的重要命题。这其中,对基础设施和软件平台的精细化运营管理成为破题的关键。 大模型对的需求是显而易见的,但更关键的点可能在于能否把更高效地挖掘出来。在不同的阶段,企业对于需求也不尽相同。 《中国发展观察报告》显示,有些中心整体利用率不足30%,大量的资源在沉睡中等待被唤醒,供需矛盾凸显。 这种演进使智能变得不可或缺,且不再局限于简单的叠加或升级,而是在多元重构驱动下实现的极致拓展与跃迁。 所谓“精装”,就是依托宁畅定制化与全栈全液能力,以栈为交付形态,从用户需求与体验出发,提供全体系软硬协同的精细化服务。

    76800编辑于 2025-03-04
  • 来自专栏新智元

    MIT警告深度学习正逼近极限,突破瓶颈会让人类成为上帝?

    如果力能够突破极限,人类将会成为「计算中的上帝」吗? 摩尔定律提出的时候,人们从来没有想到过芯片的会有到达极限的一天,至少从来没有想到芯片极限会这么快到来。 MIT发出警告:将探底,算法需改革 近日,MIT发出警告:深度学习正在接近现有芯片的极限,如果不变革算法,深度学习恐难再进步。 更有甚者,增长为ImageNet上的图像分类模型贡献了43%的准确率。 ? 网友评论:提升不一定要堆更多晶体管 这篇论文发表后,在reddit上引发了网友热议。还可能再提高吗,能不能搞出更贴合人脑的计算芯片? ? 随着软件算法和硬件的协同进步,未来机器的甚至于智力会超过人类吗? 接近无限会出现什么情况,会让人类成为上帝吗?

    1.4K10发布于 2020-07-23
  • 来自专栏ADAS性能优化

    生存VS

    英國「金融時報」報導,鑒於美國近期祭出制裁來壓制中國電腦運能力,中國科技企業阿里巴巴和壁仞科技為了避免受制裁,正將各自最先進晶片的設計微調,以降低運處理速度。 華府10月宣布的制裁措施,禁止任何運能力超過一定門檻的半導體產品出貨至中國除非得到许可。這打亂了上述中國科技企業的發展計畫。 但中國工程師表示,要判斷哪些晶片產品不受制裁並不簡單,因為華府對於如何計這個速率沒有清楚規範。 根據研究集團伯恩斯坦(Bernstein)計,從壁仞官方網站存檔紀錄來看,在美國宣布制裁之前,壁仞首款處理器BR100的規格算出傳輸率是640 GB/s,超過限制門檻;但根據壁仞官網目前發布的BR100

    1.2K20编辑于 2022-12-20
  • 来自专栏数通

    GPU爆发下的IO瓶颈,是怎么一回事

    传统I/O架构由CPU主导,但随着计算重心转向GPU,存储I/O性能与GPU的差距日益凸显。GPU计算性能每代提升约1.5倍,而存储设备带宽增速明显滞后。 要突破这一瓶颈,需硬件技术(如GDS、CXL等)与软件技术(如智能预取、存融合等)协同创新。 GDS的核心目标是绕过CPU与主机内存的中转环节,在存储设备与GPU显存间建立端到端直连通道,消除传统I/O路径中的冗余数据拷贝与CPU性能瓶颈。 GDS通过集成PCIe P2P协议,将DMA的数据传输能力从“设备-内存”扩展至“设备-设备”层级,消除主机内存缓冲带来的性能瓶颈。 高频量化交易分析 高频交易需在极短时间内处理TB级行情数据,传统方案依赖CPU聚合数据后再传输至GPU,导致延迟波动和带宽瓶颈,难以支撑实时风险计算与策略更新。

    54210编辑于 2025-12-25
  • 来自专栏运维开发王义杰

    函数计算

    对于一个函数消耗的,我们通常用它的运行时间来衡量,例如在基准测试中。你可以测量一个函数运行一次(或者多次)所需要的时间,然后用这个时间来比较不同函数或者同一个函数的不同实现。 然而,这种方法并不能直接测量一个函数消耗的CPU。为了获得这种信息,你可能需要使用一种叫做CPU profiling的技术,它可以测量程序在CPU上花费的时间。Go的pprof包提供了这种功能。

    73810编辑于 2023-08-16
  • 来自专栏新智元

    终结者来了!华人天团「降维打击」注意瓶颈,AI狂飙进对数时代

    更厉害的是,它无缝对接线性注意家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代! LLM苦太久了! 为缓解长序列建模中的瓶颈,研究界持续探索高效替代方案。 这次Mamba作者Tri Dao、华人AI领域大牛Eric P. 对数线性注意 在上一节中,已经知道:注意的计算效率和内存消耗,取决于公式O=(A⊙M)V中掩码矩阵M的结构。 与传统token级scan不同,它不再受限于内存带宽瓶颈,而是通过结构优化使状态以低成本在线上传递。 讨论与局限性 虽然对数线性注意在许多情况下优于线性注意,但仍有不少任务中它的表现未能超越线性注意的基线。

    40910编辑于 2025-06-09
  • 来自专栏深度学习与python

    零一万物李谋:当大模型推理遇到瓶颈,如何进行工程优化?

    编辑 | 李忠良 自 OpenAI 发布 ChatGPT 起,大语言模型的惊艳效果吸引了越来越多的人和资本关注到该领域,近年模型本身的参数量和序列长度也呈指数级增长,要面对的瓶颈问题接踵而至。 为了让听众了解更多的内容,我们提前采访了李老师,以下为内容纪要: InfoQ:您在演讲中提到了大模型的需求及其增长趋势,可以详细介绍一下目前大模型在推理过程中所面临的主要挑战是什么? 针对这种快速增长的需求,您认为目前的技术和资源是否足以应对? 李谋: 大模型的计算主要分为训练和推理两个步骤,他们对于的侧重点不太一样。 InfoQ:在面对瓶颈时,有时候需要进行折衷权衡,比如牺牲一定的模型精度以换取更快的推理速度。您是如何权衡和决策的?是否有一些通用的指导原则? InfoQ:针对目前大模型推理算瓶颈的问题,您认为未来可能出现的技术突破或发展方向是什么?

    71510编辑于 2024-05-06
  • 来自专栏大语言模型,算力共享

    服务标识封装

    为了解决这一问题,服务标识封装技术应运而生,旨在实现服务与IP层的解耦,提升服务的灵活性和可扩展性。 这个overlay层用于封装服务标识,使得服务可以在不改变现有IP网络架构的情况下独立部署和管理。 服务标识:在overlay层中封装的服务标识是区分不同服务的唯一标识。 IP层解耦:通过服务标识封装,服务的路由和管理不再依赖于IP层。这意味着网络中间转发节点在转发数据时,无需识别服务标识,仅做普通路由转发即可。 可扩展性:随着服务的发展,可以通过增加新的服务标识来扩展网络功能,而无需改变现有网络架构。兼容性:服务标识封装技术可以与现有网络架构兼容,实现平滑过渡。 数据中心网络:在数据中心网络中,服务标识封装技术可以提升数据中心的资源利用率和服务质量。服务标识封装技术是一种实现服务与IP层解耦的有效手段。

    45420编辑于 2024-07-28
  • 来自专栏鲜枣课堂

    世界简史(下)

    埃里克·施密特 云计算的本质,是把零散的物理算资源变成灵活的虚拟资源,配合分布式架构,提供理论上无限的服务。 趋势 2010年至今,发展出现两个显著趋势。 一,泛在化。 各个行业对有着不同的需求。于是,逐渐开始细分,分为通用、超算算、智能。 不同的需求,也使得芯片产生了不同的形态。 除了传统的CPU和GPU之外,NPU、DPU等单元开始出现,并成为大众关注的焦点。 在高性能计算上,集群成为超和智的新宠。 而电子计算机出现后,只用了不到一百年,就让翻了百万亿倍。 的飞跃 刚刚过去的四十年,信息技术革命的浪潮,席卷了我们生活的每一个角落。整个人类社会,在的驱动下,发生了翻天覆地的变革。 我们对的需求,还在疯狂增长。 在摩尔定律逐渐走向瓶颈的前提下,我们该如何实现的倍增?以量子计算为代表的新型,是否会全面崛起? 就让时间来告诉我们答案吧! —— 全文完 ——

    63420编辑于 2023-08-21
  • 来自专栏软硬件融合

    芯片,如何突围?

    作为常年从事计算机芯片相关工作的我,今天就从芯片这个视角出发,谈谈对国内芯片如何实现突围的个人的一些看法。 核心的原因在于,这是目前的GPU计算集群所能支撑的上限: 一方面,单芯片已经瓶颈增长极度缓慢。 还有一个很重要的原因,就是的建设和运营成本,也已经达到了一个天文数字。 目前CPU性能早已瓶颈,GPU性能即将见顶并且成本高昂,而AI芯片太过于专用,不适用于快速变化的模型算法/算子和业务逻辑。 可以在工艺落后1-2代的情况下,实现单个芯片的更优。 方法二,网络。通过网络、东数西,实现跨集群的调度和协同,可以实现资源的高效利用。 方法三,智能网联。 更庞大节点,更高性能更低延迟的网络,更强大的基础设施,实现更强大的宏观数字系统。

    68720编辑于 2023-11-16
  • 来自专栏软硬件融合

    网络系列文章(二):从云计算到网络

    编者按 网络,对行业来说,是“整合”还是“分工”? 一直以来,我都认为网络是行业整合的过程,通过网络运营商把全国的资源统筹到一起,形成高效的统一供应。 而在网络时代,最主要做的是构建后台中心(从数据中心升级到中心)和前台服务运营解耦分工的新业务模式。 中心,专注于中心建设,专注于的最优性能和最低成本(包括建设成本和运营成本);同时,还要有非常广阔的销售渠道,确保的广泛销售,最大限度减少闲置资源。 3.3 生产和运营的解耦 在云计算时代,供应和运营是一体的,客户是需求方。像电商的平台、卖家、买家三方关系一样,网络时代,需要实现供应和运营的解耦: 供应商。 依据规模从大到小,包括:大规模中心、小规模边缘中心、用户现场机柜,以及批量终端。 需求方。数字化业务需求的各类企业。

    2.1K12编辑于 2024-03-27
领券