首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    大模型应用:分层治理:基于大模型四层匹配体系的优化方案.72

    今天我们一如既往对刨根问底,拆解三层核心构成与四层匹配体系,用通俗易懂的示例,和大家一起跳出加卡误区,掌握大模型分层治理的核心逻辑,让每一份硬件投入都转化为实实在在的落地效率。 2.4 业务层匹配的最终价值匹配,核心是让“资源”与“业务场景”精准匹配,解决算浪费在无价值场景的问题,是分层治理的最终目标。 三、分层治理的执行流程分层治理不是一步到位的,而是一个循序渐进的过程:第一步:需求梳理(业务层先行)明确大模型的业务场景(实时生成/批量推理/模型微调)、任务规模(模型参数/数据量)、优先级(核心 /非核心);输出“业务需求清单”,这是分层匹配的前提。 治理的核心是物尽其用,跳出硬件堆砌的误区,用分层匹配逻辑打通全链路,才能让每一分硬件投入都转化为产业化落地的实效。

    20643编辑于 2026-04-10
  • Coze玩转ChatGPT-4,存解决大模型

    本篇文章将从费用和两个方面出发,先介绍一种免费使用ChatGPT-4的工具——Coze,再介绍可有效解决大模型需求的存架构。 二.大模型及存架构上一章节介绍了一种免费使用ChatGPT-4的工具,可以解决ChatGPT-4的费用问题,下面我将简单介绍ChatGPT-4引出的大模型需求,并介绍一种解决方案——存架构。 如图44所示,大模型的需求增长速度约为750倍/2年,而芯片增长速度则仅为3.1倍/2年大模型需求与芯片的不匹配已经成为当前主要矛盾。 图 44 大模型训练需求与芯片增长速度的对比[5]大模型的训练和推理不仅计算密集,而且极度依赖数据传输效率。 这种架构能显著提高数据处理速度,降低能耗,是解决大模型需求的一种具有极大前景的技术。根据计算范式的不同,存一体可以主要分为模拟式和数字式两种[6]。

    2.5K10编辑于 2024-05-14
  • 来自专栏CSDN社区搬运

    LVLMs,gpt4平替

    其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。 而对于研究人员而言,没有强大的的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。

    30810编辑于 2025-01-02
  • 来自专栏数值分析与有限元编程

    Q4单元等效节点

    Q4单元的等效节点 在前一篇得到面力作用下Q4单元的等效节点计算公式: 例 [cv8emepl9j.png] 显然, 注意,这里已经是一元函数积分了,是常数1. , 1] # eta的坐标是1 x = [1, 2, 3, 0] # 单元节点的x坐标 y = [0, 0, 1, 1] # 单元节点的y坐标 f3tx = 0 f3ty = 0 f4tx = 0 f4ty = 0 for i in range (2): N3 = 0.25 * (1 + xi[i]) * ( 1 + eta[i]) N4 = 0.25 * (1 - xi = f4tx + N4 *( tau*J11 - sigma * J12 ) f4ty = f4ty + N4 *( sigma*J11 + tau * J12 ) print(f3tx ,f3ty,f4tx,f4ty)

    89910发布于 2020-05-18
  • 来自专栏产品经理的人工智能学习库

    – computation

    文章目录 人工智能里的是什么? 在普通电脑中,CPU就提供了帮助电脑快速运行。玩游戏的时候需要显卡提供,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像,机器越好越先进,制造的过程就越快。 ? 越大,速度越快 维基百科版本 Techpedia版本 是使用计算机技术完成给定目标导向任务的过程。 可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。是现代工业技术的一个至关重要的组成部分。

    2.6K30发布于 2019-12-18
  • 来自专栏大语言模型,算力共享

    共享:环形结构的分配策略

    ​目录共享:环形结构的分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)共享:环形结构的分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy

    99620编辑于 2024-07-26
  • 来自专栏科技云报道

    之后,“存”上位

    中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和。 从ImageNet的1400万张图像到GPT-4的45TB文本数据,海量的多模态数据为AI模型提供了丰富的训练素材。 通过兼容多种存储协议,在提升数据跨域调度效率的同时,大幅降低数据治理成本。 构建AI时代新型 “数据粮仓” 与聚焦在“”不同,数据存聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 存中心围绕数据汇聚、存储、治理、开发、利用、供给等数据全生命周期流程,完成从数据资源到智能价值的高效转化,其不仅承载着大规模数据的存储需求,也对高效数据处理、分析、挖掘等技术领域起到支撑作用,推动从分散的小规模数据向规模化

    42800编辑于 2025-06-19
  • 来自专栏量子位

    文心一言从哪来?自家最大智中心:规模4EFLOPS,base李彦宏老家

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 百度版ChatGPT底层支持,李彦宏老家阳泉助一臂之力! 其中,阳泉智中心是亚洲单体最大的智中心,规模可达4EFLOPS(每秒400亿亿次浮点计算)。 它是目前亚洲最大单体智中心,规模达4EFLOPS(每秒400亿亿次浮点计算),整个建筑面积约12万平方米。 一共包括13个模组,可承载约28万台服务器。 技术人员表示,智中心会按需发电和散热,日常运维也是基于AI来实现的。 自21年4月以来,阳泉智中心正式投入使用。在去年12月起,开始对外开放服务。 当时项目计划投资为47.08亿元。 据介绍,为了支持文心一言的大规模智能需求,百度智能云已经完成了三大配套云服务。

    66920编辑于 2023-03-21
  • 来自专栏科技云报道

    更要“利”,“精装”触发大模型产业新变局?

    面对如此巨大的需求,企业如何在平衡与能耗开支的前提下,高效地利用和管理算资源,是实现降本增效的重要命题。这其中,对基础设施和软件平台的精细化运营管理成为破题的关键。 大模型对的需求是显而易见的,但更关键的点可能在于能否把更高效地挖掘出来。在不同的阶段,企业对于需求也不尽相同。 《中国发展观察报告》显示,有些中心整体利用率不足30%,大量的资源在沉睡中等待被唤醒,供需矛盾凸显。 这种演进使智能变得不可或缺,且不再局限于简单的叠加或升级,而是在多元重构驱动下实现的极致拓展与跃迁。 所谓“精装”,就是依托宁畅定制化与全栈全液能力,以栈为交付形态,从用户需求与体验出发,提供全体系软硬协同的精细化服务。

    86300编辑于 2025-03-04
  • 来自专栏光芯前沿

    三星:光互连+分层网络架构+内存优化,打造百万卡集群

    这一“登月计划”的核心在于解决大规模计算元件的连接性、内存效率和网络扩展性问题,其技术路径涵盖原生互连、光通信、内存架构优化及分层集群设计。 例如,如果堆叠几个HBM,每个HBM包含8层芯片,每层芯片为32Gb,也就是4GB,那么通过6个这样的设备就能组成一个192GB的内存组合。 原生互连扩展:突破封装限制 目前常见的xPU架构是将大芯片居中,IO/内存芯片粒分布在封装周边,周边芯片如HBM通过多层堆栈的形式提升通信和存储存储(如192GiB HBM配置)。 基本上,这些聚合区域可以作为数据分层、内存服务器和集合执行单元。 这里的一个示例图展示了一个与之前提到的GPU分组类似的结构,在这个组合中可能包含多个这样的交换机。 四、结论 三星Stargate项目通过原生互连、分层网络架构及内存优化,为百万级AI集群的构建提供了可行路径。其核心在于跨领域协作、技术融合与系统级创新。

    56900编辑于 2025-04-08
  • nvidia GRID P40-4Q显卡信息

    (Runtime API) version (CUDART static linking) Detected 1 CUDA Capable device(s) Device 0: "GRID P40-4Q = CUDART, CUDA Driver Version = 11.6, CUDA Runtime Version = 11.6, NumDevs = 1, Device0 = GRID P40-4Q

    47600编辑于 2025-07-21
  • 来自专栏新智元

    侵吞全球!谷歌Gemini被曝达GPT-4五倍,手握TPU王牌碾压OpenAI

    这次,作者爆料谷歌的Gemini消耗是GPT-4的整整5倍,手中没有足够GPU的人,在商业化战争中铁定出局。 而整个AI社区,再次被这次的消息所震惊:OpenAI的比起谷歌来,只能说是小儿科—— 谷歌的下一代大模型Gemini,已达GPT-4的5倍! 根据Patel和Nishball的说法,此前屡屡被爆料将成为GPT-4大杀器的谷歌Gemini,已经开始在新的TPUv5 Pod上进行训练了,高达~1e26 FLOPS,比训练GPT-4还要大 在介绍Gemini和谷歌的云业务之前,爆料者先分享了关于谷歌疯狂扩张的一些数据——各季度新增加的⾼级芯⽚总数。 对于OpenAI来说,他们拥有的总GPU数量将在2年内增加4倍。 真正令人震惊的是Gemini的下一次迭代,它已经开始在基于TPUv5的pod上进⾏训练,高达~1e26 FLOPS,这比训练GPT-4要大5倍。

    64720编辑于 2023-09-09
  • 来自专栏ADAS性能优化

    生存VS

    英國「金融時報」報導,鑒於美國近期祭出制裁來壓制中國電腦運能力,中國科技企業阿里巴巴和壁仞科技為了避免受制裁,正將各自最先進晶片的設計微調,以降低運處理速度。 華府10月宣布的制裁措施,禁止任何運能力超過一定門檻的半導體產品出貨至中國除非得到许可。這打亂了上述中國科技企業的發展計畫。 但中國工程師表示,要判斷哪些晶片產品不受制裁並不簡單,因為華府對於如何計這個速率沒有清楚規範。 根據研究集團伯恩斯坦(Bernstein)計,從壁仞官方網站存檔紀錄來看,在美國宣布制裁之前,壁仞首款處理器BR100的規格算出傳輸率是640 GB/s,超過限制門檻;但根據壁仞官網目前發布的BR100

    1.2K20编辑于 2022-12-20
  • 来自专栏运维开发王义杰

    函数计算

    对于一个函数消耗的,我们通常用它的运行时间来衡量,例如在基准测试中。你可以测量一个函数运行一次(或者多次)所需要的时间,然后用这个时间来比较不同函数或者同一个函数的不同实现。 然而,这种方法并不能直接测量一个函数消耗的CPU。为了获得这种信息,你可能需要使用一种叫做CPU profiling的技术,它可以测量程序在CPU上花费的时间。Go的pprof包提供了这种功能。

    74510编辑于 2023-08-16
  • 来自专栏鲜枣课堂

    世界简史(下)

    埃里克·施密特 云计算的本质,是把零散的物理算资源变成灵活的虚拟资源,配合分布式架构,提供理论上无限的服务。 趋势 2010年至今,发展出现两个显著趋势。 一,泛在化。 3G/4G/5G移动通信以及光纤宽带的发展,构建了强大的网络,给的“移动”创造了条件。 如今,不再只待在云端,而是可以下沉到边缘,产生了“云计算-边(边缘计算)-端计算”三层架构。 各个行业对有着不同的需求。于是,逐渐开始细分,分为通用、超算算、智能。 不同的需求,也使得芯片产生了不同的形态。 除了传统的CPU和GPU之外,NPU、DPU等单元开始出现,并成为大众关注的焦点。 在高性能计算上,集群成为超和智的新宠。 我们对的需求,还在疯狂增长。 在摩尔定律逐渐走向瓶颈的前提下,我们该如何实现的倍增?以量子计算为代表的新型,是否会全面崛起? 就让时间来告诉我们答案吧! —— 全文完 ——

    67920编辑于 2023-08-21
  • 来自专栏软硬件融合

    芯片,如何突围?

    作为常年从事计算机芯片相关工作的我,今天就从芯片这个视角出发,谈谈对国内芯片如何实现突围的个人的一些看法。 核心的原因在于,这是目前的GPU计算集群所能支撑的上限: 一方面,单芯片已经瓶颈,增长极度缓慢。 还有一个很重要的,要通过一些机制,数量级的降低的成本。 4 芯片工艺的快速进步 工艺持续进步,Chiplet先进封装也越来越成熟。 从2D的工艺到3D的封装再到Chiplet的4D封装,芯片的底层实现技术仍在快速发展。 目前的大芯片,通常在500亿晶体管左右。Intel的规划是在2030年,达到1万亿晶体管。 可以在工艺落后1-2代的情况下,实现单个芯片的更优。 方法二,网络。通过网络、东数西,实现跨集群的调度和协同,可以实现资源的高效利用。 方法三,智能网联。

    71420编辑于 2023-11-16
  • 来自专栏大语言模型,算力共享

    服务标识封装

    ​目录服务标识封装:封装机制技术优势与应用场景IP ,L4传输层,overlay 简单举例说明overlay层的作用常见的overlay技术服务标识封装: 随着云计算和边缘计算的快速发展,服务成为网络架构中的重要组成部分 为了解决这一问题,服务标识封装技术应运而生,旨在实现服务与IP层的解耦,提升服务的灵活性和可扩展性。 这个overlay层用于封装服务标识,使得服务可以在不改变现有IP网络架构的情况下独立部署和管理。 服务标识:在overlay层中封装的服务标识是区分不同服务的唯一标识。 IP层解耦:通过服务标识封装,服务的路由和管理不再依赖于IP层。这意味着网络中间转发节点在转发数据时,无需识别服务标识,仅做普通路由转发即可。 数据中心网络:在数据中心网络中,服务标识封装技术可以提升数据中心的资源利用率和服务质量。服务标识封装技术是一种实现服务与IP层解耦的有效手段。

    48820编辑于 2024-07-28
  • 来自专栏软硬件融合

    网络系列文章(二):从云计算到网络

    编者按 网络,对行业来说,是“整合”还是“分工”? 一直以来,我都认为网络是行业整合的过程,通过网络运营商把全国的资源统筹到一起,形成高效的统一供应。 而在网络时代,最主要做的是构建后台中心(从数据中心升级到中心)和前台服务运营解耦分工的新业务模式。 中心,专注于中心建设,专注于的最优性能和最低成本(包括建设成本和运营成本);同时,还要有非常广阔的销售渠道,确保的广泛销售,最大限度减少闲置资源。 同时,个人觉得,网络是组成的网络,“网络”的含义是一个形象的比喻,如我们常听到的营销网络、物流网络等概念中的网络是相同的意思。而不仅仅是技术里讲的如以太网、IPv4/v6等的网络技术。 3.3 生产和运营的解耦 在云计算时代,供应和运营是一体的,客户是需求方。像电商的平台、卖家、买家三方关系一样,网络时代,需要实现供应和运营的解耦: 供应商。

    2.1K12编辑于 2024-03-27
  • 来自专栏芯智讯

    Cerebras推出全球最强AI超:5400万个AI内核,高达4 exaFLOPS!

    目前,该网络上的第一台AI超级计算机——“Condor Galaxy 1(CG-1)”开始部署,AI高达4 exaFLOPS(每秒4百亿亿次),这也是目前性能最强的AI超级计算机。 △CS-2 AI超级计算机 此次,Cerebras携手G42打造的高达4 exaFLOPS的最强AI超级计算机CG-1,正是由64台CS-2 AI计算机组合而成。 5400万个AI内核,AI4 exaFLOPS 据介绍,CG-1与任何已知的GPU集群不同,其由64台CS-2 AI计算机组成,每台CS-2 AI计算机则是由一个WSE-2芯片所驱动,这也使得整个 CG-1系统当中的AI内核数量达到了5400万个,总的AI(FP16)达到了惊人的4 exaFLOPS(400万万亿FLOPS),总体的片上内存容量达到了82TB,各个CS-2系统间的带宽速率高达388Tbps 届时,9台Condor Galaxy系统的总的AI将达到36 exaFLOPS。 Andrew Feldman称,这一前所未有的超级计算网络将彻底改变全球人工智能的发展。

    68120编辑于 2023-08-09
  • 来自专栏鲜枣课堂

    世界简史(中)

    接上集:世界简史(上) 在上一篇里,小枣君提到了ENIAC的诞生。 其实,在1945年-1948年,也就是我们中国还处于内战时期时,除了ENIAC诞生外,科技领域还发生了好几件大事。 1960年4月,COBOL语言正式发布。1964年,BASIC语言发布。 高级语言的不断涌现,为后面的软件产业爆发奠定了基础。 它改变了计算机产业的商业模式,标志着不再仅为少数大型企业服务(大型机),而是开始昂首走向了普通家庭和中小企业。 技术蓄力 除了处理器之外,计算机存储设备和网络技术也有显著进步。 未完待续…… 敬请期待——《世界简史(下)》 参考文献: 1、《计算机的发展历史汇总》,网络; 2、《发展简史》, 庐山真容; 3、《世界上第一台个人电脑是哪台?》 ,小盒子,知乎; 4、《电子计算机的发展世代概述》,吴国发,知乎; 5、《IT历史连载-计算机和个人电脑的历史》,网络; 6、维基百科、百度百科;

    74120编辑于 2023-08-21
领券