首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏存内计算加速大模型

    架构优化:为大模型提升铺平道路

    然而,大模型的高效运行离不开强大的支持,而存架构的优化则是提升的关键所在。本文将探讨现有大模型对的需求以及RRAM架构优化如何为大模型的提升提供动力,为开发者提供一些实用的指导。 2、质变,存内计算打造 AI 时代引擎2.1、需求指数级增长,加速计算深度变革是设备通过处理数据,实现特定结果输出的计算能力。 可分为基础、智能和超算算三部分,分别提供基础通用计算、人工智能计算 和科学工程计算。 全球规模不断增长。 水平方面,据 IDC 统计 2021 年美国、中国、 欧洲、日本在全球规模中的份额分别为 36%、31%、11%和 6%。中国智能规模持续扩大。

    1.2K10编辑于 2024-05-14
  • 来自专栏产品经理的人工智能学习库

    – computation

    文章目录 人工智能里的是什么? 在普通电脑中,CPU就提供了帮助电脑快速运行。玩游戏的时候需要显卡提供,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像,机器越好越先进,制造的过程就越快。 ? 越大,速度越快 维基百科版本 Techpedia版本 是使用计算机技术完成给定目标导向任务的过程。 可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。是现代工业技术的一个至关重要的组成部分。

    2.7K30发布于 2019-12-18
  • 来自专栏腾讯专有云

    直播预告:TCS异构管理与成本优化

    7月1日15:00-15:50,研修营第三期课程《国产适配:异构管理与成本优化》强势来袭。 课程亮点: ✅ 智能调度,适配工业复杂需求 ✅ 国产适配,突破采购限制,缩短部署周期 该课程基于云原生AI架构,全面覆盖资源整合、智能调度策略、国产芯片适配全流程,以统一管理平台、标准化适配框架 、场景化调度算法为核心,为企业打造“高可用、低损耗、快部署”的异构解决方案,助力企业“资源粗放管理”迈向“精细化成本控制”,深度破解异构适配及成本优化难题。 这个夏天,让您的企业告别“瓶颈”,用云原生AI驱动国产化、调度智能化,让知识产生价值,让智能触手可及!

    10400编辑于 2025-06-28
  • 来自专栏大语言模型,算力共享

    共享:环形结构的分配策略

    ​目录共享:环形结构的分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)共享:环形结构的分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy

    1.2K20编辑于 2024-07-26
  • 来自专栏科技云报道

    之后,“存”上位

    芯片的摩尔定律逐渐逼近物理极限,存开始从幕后走向台前,成为AI领域下一个关键赛点。 长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。 存中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和。 在训练方面,高性能并行文件系统可以提升大模型训练效率,超大带宽和容量支持超万卡集群无瓶颈扩展,EB级扩展能力适应海量数据,加速卡直通技术使数据从存储到“一跳直达”。 构建AI时代新型 “数据粮仓” 与聚焦在“”不同,数据存聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 将目光投向更长远,新型AI存储很可能是撬动人工智能时代杠杆的另一个支点,“以存强”“以数助”亦是弯道超车的重要落点。当AI产业具备扎实的存底座,才能登高远眺,看见AI时代最美的风景。

    50100编辑于 2025-06-19
  • 突破IT资源迁移瓶颈:基于全链路自动化与底层优化的降本增效实践

    主机底层适配与无缝迁移: 利用 go2tencentcloud 工具支持断点续传、块级迁移与业务不停机的增量同步;内置驱动自动适配云上环境,规避手动配置网络与虚拟化驱动带来的系统崩溃风险。 核心指标3:底层数据库压测性能显著拉升。 五、 依托底层虚拟化技术突破与超大规模基础设施 (技术支撑来源:腾讯云CVM高级产品经理 周崇武) 为确保迁移后的高可用与经济性,底层产品(CVM)在技术深度与规模效应上构筑了绝对的技术确定性: 开源社区核心贡献背书 性价比优势: 业内首发并与AMD深度合作打造高性价比旗舰 SA5 机型。

    16410编辑于 2026-05-31
  • 来自专栏科技云报道

    更要“利”,“精装”触发大模型产业新变局?

    《中国发展观察报告》显示,有些中心整体利用率不足30%,大量的资源在沉睡中等待被唤醒,供需矛盾凸显。 这种演进使智能变得不可或缺,且不再局限于简单的叠加或升级,而是在多元重构驱动下实现的极致拓展与跃迁。 定制化方面,宁畅围绕用户实际应用场景和需要,可以为用户定制对应各种需求的解决方案,方案完整覆盖用户交付、部署、应用、运维体验和业务需求,本身就涵盖了硬件、软件平台搭建、算法模型优化、应用场景定制等内容 作为业内少数能够实现“全栈全液”的智基础设施方案,该方案不仅涵盖了从底层硬件到上层软件的全方位支持,还通过全液冷技术的应用,帮助智中心实现高效与绿色并行。 在“软装”层面,宁畅提供从集群、算子再到模型软件优化的全局服务和涵盖存网管用全体系优化。也就是说从集群环境搭建,到AI开发调度,再到集群运维和运营,都有相对应的软件提供支持。

    1.1K00编辑于 2025-03-04
  • 来自专栏大模型应用

    大模型应用:分层治理:基于大模型四层匹配体系的优化方案.72

    的三层核心构成这是大模型底层骨架,三层必须相互匹配,就像“木桶效应”,最短的那块板决定最终上限。 实时生成场景(如大模型对话、AI 文案生成):对响应速度要求高,通常<1 秒,对的单卡推理效率要求高,适合使用中等规模集群,采用低延迟推理优化,如模型量化、剪枝、KV Cache 优化,避免使用大规模集群 模型微调场景(如行业大模型微调):对计算算和访存都有较高要求,适合使用中等规模集群,采用微调专用优化,如 LoRA 技术,减少参数更新量,降低需求,实现业务需求与规模的精准匹配。 第四步:监控优化(闭环迭代)部署监控工具(如 Prometheus + Grafana),实时监控三层的利用率、四层匹配的效率;针对出现的瓶颈(如通信开销过大、显存利用率过低)进行迭代优化,形成 我们首先可以从基础匹配入手,先搞定计算精度适配、显存带宽优化这些低成本动作,用代码验证效果后再进阶多卡协同;再就是是绑定业务场景优化,不同场景对需求差异极大,实时推理重低延迟,批量训练重吞吐量,针对性匹配才能让价值最大化

    29943编辑于 2026-04-10
  • 来自专栏ADAS性能优化

    生存VS

    英國「金融時報」報導,鑒於美國近期祭出制裁來壓制中國電腦運能力,中國科技企業阿里巴巴和壁仞科技為了避免受制裁,正將各自最先進晶片的設計微調,以降低運處理速度。 華府10月宣布的制裁措施,禁止任何運能力超過一定門檻的半導體產品出貨至中國除非得到许可。這打亂了上述中國科技企業的發展計畫。 但中國工程師表示,要判斷哪些晶片產品不受制裁並不簡單,因為華府對於如何計這個速率沒有清楚規範。 根據研究集團伯恩斯坦(Bernstein)計,從壁仞官方網站存檔紀錄來看,在美國宣布制裁之前,壁仞首款處理器BR100的規格算出傳輸率是640 GB/s,超過限制門檻;但根據壁仞官網目前發布的BR100

    1.3K20编辑于 2022-12-20
  • 来自专栏运维开发王义杰

    函数计算

    对于一个函数消耗的,我们通常用它的运行时间来衡量,例如在基准测试中。你可以测量一个函数运行一次(或者多次)所需要的时间,然后用这个时间来比较不同函数或者同一个函数的不同实现。 然而,这种方法并不能直接测量一个函数消耗的CPU。为了获得这种信息,你可能需要使用一种叫做CPU profiling的技术,它可以测量程序在CPU上花费的时间。Go的pprof包提供了这种功能。 一般来说,更复杂的性能分析和优化可能需要更深入的知识和技术,包括对CPU架构、内存层次结构、并发编程等方面的理解。

    80910编辑于 2023-08-16
  • 来自专栏智算中心网络

    革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

    随着国产开源大模型DeepSeek在语言生成、多模态交互及代码能力等领域的快速崛起,其规模化部署对底层网络架构提出了更高要求。 在千亿级参数模型的分布式推理场景中,多节点GPU集群的通信效率直接影响任务吞吐量和时延表现,传统网络协议已难以满足高并发、低延迟的需求。 TGR 是 AI 推理提供商最重要和关键的生产指标。 更高的 TGR 意味着:每秒处理的更多请求更高的输出效率更好的资源利用率降低运营成本测试结果清楚地表明,与传统的 InfiniBand (IB) 相比,AI智交换机可提供更低的 P90ITL 和更高的

    1.1K10编辑于 2025-05-27
  • 来自专栏Python项目实战

    不一定越猛越好:聊聊 AI 设备的低功耗优化这条现实之路

    不一定越猛越好:聊聊AI设备的低功耗优化这条现实之路大家好,我是Echo_Wish。这几年不管是写文章,还是帮朋友看方案,我越来越频繁地听到一句话:“这个模型效果挺好,就是……太费电了。” 今天这篇,咱不讲特别高冷的芯片架构论文,就用工程师、运维、算法人都能听懂的方式,聊聊:AI设备的低功耗优化,到底在“省”什么,又是怎么“省”下来的。一、先把话说明白:为什么低功耗比高性能更重要了? 二、优化不是“少算点”,而是“算得聪明点”很多人一提优化,第一反应是:“是不是把模型砍小?”说实话,这是最粗暴、也是最容易走偏的一种。 低功耗优化,说到底,是一种对现实的妥协:接受资源有限接受环境复杂接受长期运行但恰恰是这种妥协,让AI真正走出了机房。 低功耗优化,不是让AI变弱,而是让AI活得更久、更稳、更现实。

    33210编辑于 2025-12-26
  • 来自专栏量子位

    底层也正在进入软件定义一切的时代 | CCF C³

    正变成不可获缺的一个部分。 底层也在进入高度虚拟化、软件定义一切的时代。 以前叫数据孤岛现在叫孤岛,这种底层基建处设施如何做成大众拿来用的东西,这是未来一个方向。 程远:在构建CFFF平台时有对国产芯片做过调研,当时除了担心芯片水平外还有生态的缺乏。 随后,对于智能在科研创新中的应用,程远带来了《复旦大学CFFF智平台助力科研创新》的主题分享。 首先他提到最近几年发生的变化:人工智能赋能的领域已经朝着更底层的基础科学研究中去。 在这场AI for Science范式的变革中,正变成不可获缺的一个部分。大的模型需要大的数据大的和新的AI的,一条腿都不能缺。 科研智平台是参与AI for Science国际竞争的基础。 从学校角度去推进平台会遇到一些问题,比如不足、孤岛制约效能,以及人才培训门槛。

    40210编辑于 2023-10-08
  • 来自专栏GiantPandaCV

    工程部署(三): 低平台模型性能的优化

    一、模型优化 1.1 op融合 此处的模型优化指的是我们常说的模型卷积层与bn层的融合或者conection,identity等结构重参化的操作,改想法来源于某天无意参与的一次讨论: 大佬的想法认为 fuse是可以做的,但没那么必要,fuse(conv+bn)=CB的作用在于其他,而对于提速的作用微乎及微,不过本人更加坚持自己的观点,因为yolov5的对比是基于高显卡,低端卡,甚至无GPU,NPU backbone,我们看到单个shuffle block(stride=2)的组件就使用了两个深度可分离卷积: 光是一整套网络就用了25组depthwise conv(原因在于shufflenet系列为低 从而可以看出,使用反函数计算可以绕过两次sigmoid的指数操作(计算confidense),但是否使用此种方法还是需要根据实际业务分析,倘若目标的box_score都偏低,那么这种优化只会变成负优化。 y0; objects[i].rect.width = x1 - x0; objects[i].rect.height = y1 - y0; } 但ncnn的底层源码就已经实现了并行计算

    1.4K30编辑于 2022-02-11
  • 来自专栏深度学习与python

    存储优化是 AI 瓶颈的破局之道吗?

    AI 训练中的存储需求需要实现的目标是,高吞吐和低延迟的数据访问,同时确保 GPU 的得到充分利用。 分布式存储在架构设计上更灵活,而集中存储在不同知识库之间数据共享更便捷。 赵健博: 在深度学习领域中,数据是基础,是引擎。训练一个模型需要大量的数据和,并且需要反复迭代和验证才能得到想要的模型。 赵健博: 针对 AI 训练中的存储需求,我认为需要实现的目标是高吞吐和低延迟的数据访问,同时确保 GPU 的得到充分利用。 GPU 停顿的几个问题点如下:首先,在模型训练中,checkpoint 的保存过程会导致计算停顿,直接影响 GPU 的释放时间。 因此,如何从这些问题入手,解决瓶颈,优化存储系统的整体性能,是我们面临的核心挑战。 赵健博: 大模型训练需要大量的数据和强大的,而存储系统在其中扮演着至关重要的角色。

    60010编辑于 2025-04-04
  • 来自专栏软硬件融合

    芯片,如何突围?

    作为常年从事计算机芯片相关工作的我,今天就从芯片这个视角出发,谈谈对国内芯片如何实现突围的个人的一些看法。 核心的原因在于,这是目前的GPU计算集群所能支撑的上限: 一方面,单芯片已经瓶颈,增长极度缓慢。 从2D的工艺到3D的封装再到Chiplet的4D封装,芯片的底层实现技术仍在快速发展。 目前的大芯片,通常在500亿晶体管左右。Intel的规划是在2030年,达到1万亿晶体管。 可以在工艺落后1-2代的情况下,实现单个芯片的更优。 方法二,网络。通过网络、东数西,实现跨集群的调度和协同,可以实现资源的高效利用。 方法三,智能网联。 更庞大节点,更高性能更低延迟的网络,更强大的基础设施,实现更强大的宏观数字系统。

    82120编辑于 2023-11-16
  • 来自专栏鲜枣课堂

    世界简史(下)

    埃里克·施密特 云计算的本质,是把零散的物理算资源变成灵活的虚拟资源,配合分布式架构,提供理论上无限的服务。 趋势 2010年至今,发展出现两个显著趋势。 一,泛在化。 各个行业对有着不同的需求。于是,逐渐开始细分,分为通用、超算算、智能。 不同的需求,也使得芯片产生了不同的形态。 除了传统的CPU和GPU之外,NPU、DPU等单元开始出现,并成为大众关注的焦点。 在高性能计算上,集群成为超和智的新宠。 而电子计算机出现后,只用了不到一百年,就让翻了百万亿倍。 的飞跃 刚刚过去的四十年,信息技术革命的浪潮,席卷了我们生活的每一个角落。整个人类社会,在的驱动下,发生了翻天覆地的变革。 我们对的需求,还在疯狂增长。 在摩尔定律逐渐走向瓶颈的前提下,我们该如何实现的倍增?以量子计算为代表的新型,是否会全面崛起? 就让时间来告诉我们答案吧! —— 全文完 ——

    78620编辑于 2023-08-21
  • 来自专栏大语言模型,算力共享

    服务标识封装

    为了解决这一问题,服务标识封装技术应运而生,旨在实现服务与IP层的解耦,提升服务的灵活性和可扩展性。 这个overlay层用于封装服务标识,使得服务可以在不改变现有IP网络架构的情况下独立部署和管理。 服务标识:在overlay层中封装的服务标识是区分不同服务的唯一标识。 IP层解耦:通过服务标识封装,服务的路由和管理不再依赖于IP层。这意味着网络中间转发节点在转发数据时,无需识别服务标识,仅做普通路由转发即可。 数据中心网络:在数据中心网络中,服务标识封装技术可以提升数据中心的资源利用率和服务质量。服务标识封装技术是一种实现服务与IP层解耦的有效手段。 灵活性:overlay层允许在不改变底层网络结构的情况下进行网络功能的添加或修改,提高了网络的灵活性和可扩展性。

    56520编辑于 2024-07-28
  • 来自专栏软硬件融合

    网络系列文章(二):从云计算到网络

    编者按 网络,对行业来说,是“整合”还是“分工”? 一直以来,我都认为网络是行业整合的过程,通过网络运营商把全国的资源统筹到一起,形成高效的统一供应。 芯片技术日新月异,从底层芯片,到上层业务,方方面面创新迭代极为迅猛。完全统一的供应根本跟不上技术创新的步伐。 而在网络时代,最主要做的是构建后台中心(从数据中心升级到中心)和前台服务运营解耦分工的新业务模式。 中心,专注于中心建设,专注于的最优性能和最低成本(包括建设成本和运营成本);同时,还要有非常广阔的销售渠道,确保的广泛销售,最大限度减少闲置资源。 3.3 生产和运营的解耦 在云计算时代,供应和运营是一体的,客户是需求方。像电商的平台、卖家、买家三方关系一样,网络时代,需要实现供应和运营的解耦: 供应商。

    2.2K12编辑于 2024-03-27
  • 来自专栏鲜枣课堂

    世界简史(中)

    接上集:世界简史(上) 在上一篇里,小枣君提到了ENIAC的诞生。 其实,在1945年-1948年,也就是我们中国还处于内战时期时,除了ENIAC诞生外,科技领域还发生了好几件大事。 它改变了计算机产业的商业模式,标志着不再仅为少数大型企业服务(大型机),而是开始昂首走向了普通家庭和中小企业。 技术蓄力 除了处理器之外,计算机存储设备和网络技术也有显著进步。 未完待续…… 敬请期待——《世界简史(下)》 参考文献: 1、《计算机的发展历史汇总》,网络; 2、《发展简史》, 庐山真容; 3、《世界上第一台个人电脑是哪台?》

    80820编辑于 2023-08-21
领券