首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定

    单个CS-3可训24万亿参数,大GPT-4十倍 由WSE-3组成的CS-3超算,可训练比GPT-4和Gemini大10倍的下一代前沿大模型。 再次打破了「摩尔定律」! 官方博客中的一句话,简直刷新世界观: 在CS-3上训练一个万亿参数模型,就像在GPU上训练一个10亿参数模型一样简单! 显然,Cerebras的CS-3强势出击,就是为了加速最新的大模型训练。 在Llama 2、Falcon 40B、MPT-30B以及多模态模型的真实测试中,CS-3每秒输出的token是上一代的2倍。 而且,CS-3在不增加功耗/成本的情况下,将性能提高了一倍。 上一代CS-2支持多达192个系统的集群,而CS-3可配置高达2048个系统集群,性能飙升10倍。 具体来说,由2048个CS-3组成的集群,可以提供256 exafloop的AI计算。 (之前的CS-2集群只有1.5TB和12TB可选) 单个CS-3可与单个1200 TB内存单元配对使用,这意味着单个CS-3机架可以存储模型参数,比10000个节点的GPU集群多得多。

    30310编辑于 2024-03-25
  • 来自专栏机器之心

    4万亿个晶体管,单机可训练比GPT4大10倍的模型,最快最大的芯片面世

    此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的,基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力,通过 90 万个人工智能优化的计算核心 图源:https://twitter.com/intelligenz_b/status/1768085044898275534 配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型 在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。 CS-3 专为满足企业和超大规模需求而构建。 我们非常自豪能够推出第三代突破性人工智能芯片,并且很高兴将 WSE-3 和 CS-3 推向市场,以帮助解决当今最大的人工智能挑战」,Cerebras 首席执行官兼联合创始人 Andrew Feldman CS-3 性能翻倍,功耗却保持不变。 CS-3 具有卓越的易用性。相比于大模型常用的 GPU,CS-3 需要的代码减少 97%,并且能够在纯数据并行模式下训练从 1B 到 24T 参数的模型。

    24810编辑于 2024-03-18
  • 来自专栏芯智讯

    4万亿个晶体管,90万个AI核心,Cerebras第三代晶圆级AI芯片来了!

    与此同时,Cerebras还推出了基于WSE-3的CS-3超级计算机,可用于训练参数高达24万亿的人工智能模型,这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。 Cerebras还强调了CS-3卓越的电源效率和易用性。尽管性能翻了一番,CS-3仍保持着与前代产品相同的功耗。它还简化了大型语言模型(LLM)的训练,与GPU相比,所需代码减少了97%。 Cerebras表示,该公司已经看到了外界对CS-3的巨大兴趣,并有来自各个行业的大量订单积压,包括企业、政府和公有云厂商。 Cerebras还与美国阿贡国家实验室和梅奥诊所等机构合作,强调了CS-3在医疗保健方面的潜力。 Cerebras和G42之间的战略合作伙伴关系也将随着Condor Galaxy 3的建设而扩大,这是一款人工智能超级计算机,拥有64个CS-3系统(拥有57600000个核心)。

    37210编辑于 2024-03-18
  • 来自专栏DeepHub IMBA

    DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度

    2、Cerebras CS-3 AI加速器提高了稀疏预训练的效率 原生支持非结构化稀疏性:Cerebras CS-3 设计时就考虑到了非结构化稀疏性的需求。 细粒度数据流执行:CS-3 的数据流执行模式能够有效利用数据稀疏性。在这种模式下,只有非零数据触发计算,从而减少了不必要的计算步骤。 与PyTorch的无缝集成:Cerebras CS-3 能够与流行的机器学习框架如PyTorch无缝集成,使开发者可以轻松利用其硬件优势而无需对现有代码进行大量修改。 理论性能与实际性能接近:在论文中提供的实验中,Cerebras CS-3 的实际性能与理论性能非常接近,表明其硬件设计和执行模型高度优化,能够实现预期的稀疏操作加速。 Cerebras CS-3 AI加速器在此过程中扮演了关键角色,它通过原生支持非结构化稀疏性和高带宽内存架构,大幅提高了稀疏预训练的效率。

    1.2K10编辑于 2024-05-20
  • 来自专栏芯智讯

    晶圆级AI芯片WSE-3推理性能公布:在80亿参数模型上每秒生成1800个Token

    与此同时,Cerebras还推出了基于WSE-3的CS-3超级计算机,可用于训练参数高达24万亿的人工智能模型,这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。 Feldman表示,他们正在使用相同的 WSE-3 芯片和 CS-3 系统进行推理和训练。 “我们所做的是扩展了编译器的功能,可以同时在芯片上放置多个层,”Feldman解释说。 与现代 GPU 非常相似,Cerebras 通过跨多个 CS-3 系统并行化模型来应对这一挑战。具体来说,Cerebras 正在使用管道并行性将模型的层分布到多个系统。 对于需要 140GB 内存的 Llama 3 70B,该模型的 80 层分布在四个通过以太网互连的 CS-3 系统中。这确实会带来性能损失,因为数据必须通过这些链接。 对于更大的模型,例如最近宣布的 4050 亿参数变体的 Llama 3,Cerebras 估计它将能够使用 12 个 CS-3 系统实现每秒约 350 个Token。

    57210编辑于 2024-09-02
  • 来自专栏光芯前沿

    Cerebras的晶圆级算力革命

    CS-3作为基于WSE-3的系统,在核心性能指标上全面超越GPU:芯片尺寸、核心数量、片上内存、内存带宽和架构带宽分别达到H100的57倍、52倍、880倍、7000倍和3715倍。 凭借这种性能优势,单个CS-3芯片可在一天内完成LLaMA 70B模型10亿token的微调任务,远超传统GPU集群的效率。 MemoryX支持DDR5和Flash混合存储,兼顾性能与成本效率,配合多CPU架构,可支持所有常见机器学习操作,单个CS-3系统配备36TB DDR5内存(支持7200亿参数)和1.2PB Flash SwarmX架构作为专为晶圆级系统设计的互联方案,支持跨CS-3系统的数据并行训练,权重广播与梯度归约高效完成,多系统扩展时保持与单系统一致的执行模型、网络流和软件接口,实现近乎线性的缩放效果。 其中Condor Galaxy 1配备64个CS-2,提供4EFLOP/s算力和82TB内存;Condor Galaxy 2则采用192个CS-3,实现24EFLOP/s算力和324TB内存,满足不同规模的计算需求

    33610编辑于 2025-12-25
  • 来自专栏存储公众号:王知鱼

    Cerebras:存储系统系统与新兴存储机遇

    HBM的架构示意图 本报告将深入剖析Cerebras加速卡(以CS-3系统及WSE-3芯片为核心)的存储系统设计,详细对比其与GPU HBM及CPU DRAM的架构差异,阐述其如何通过“权重流”(Weight

    11510编辑于 2026-03-09
领券