搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏新智元
4万亿晶体管5nm制程，全球最快AI芯片碾压H100！单机可训24万亿参数LLM，Llama 70B一天搞定
单个CS-3可训24万亿参数，大GPT-4十倍由WSE-3组成的CS-3超算，可训练比GPT-4和Gemini大10倍的下一代前沿大模型。再次打破了「摩尔定律」！官方博客中的一句话，简直刷新世界观：在CS-3上训练一个万亿参数模型，就像在GPU上训练一个10亿参数模型一样简单！显然，Cerebras的CS-3强势出击，就是为了加速最新的大模型训练。在Llama 2、Falcon 40B、MPT-30B以及多模态模型的真实测试中，CS-3每秒输出的token是上一代的2倍。而且，CS-3在不增加功耗/成本的情况下，将性能提高了一倍。上一代CS-2支持多达192个系统的集群，而CS-3可配置高达2048个系统集群，性能飙升10倍。具体来说，由2048个CS-3组成的集群，可以提供256 exafloop的AI计算。（之前的CS-2集群只有1.5TB和12TB可选）单个CS-3可与单个1200 TB内存单元配对使用，这意味着单个CS-3机架可以存储模型参数，比10000个节点的GPU集群多得多。
30310编辑于 2024-03-25
来自专栏机器之心
4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世
此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的，基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力，通过 90 万个人工智能优化的计算核心图源：https://twitter.com/intelligenz_b/status/1768085044898275534 配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。 CS-3 专为满足企业和超大规模需求而构建。我们非常自豪能够推出第三代突破性人工智能芯片，并且很高兴将 WSE-3 和 CS-3 推向市场，以帮助解决当今最大的人工智能挑战」，Cerebras 首席执行官兼联合创始人 Andrew Feldman CS-3 性能翻倍，功耗却保持不变。 CS-3 具有卓越的易用性。相比于大模型常用的 GPU，CS-3 需要的代码减少 97%，并且能够在纯数据并行模式下训练从 1B 到 24T 参数的模型。
24810编辑于 2024-03-18
来自专栏芯智讯
4万亿个晶体管，90万个AI核心，Cerebras第三代晶圆级AI芯片来了！
与此同时，Cerebras还推出了基于WSE-3的CS-3超级计算机，可用于训练参数高达24万亿的人工智能模型，这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。 Cerebras还强调了CS-3卓越的电源效率和易用性。尽管性能翻了一番，CS-3仍保持着与前代产品相同的功耗。它还简化了大型语言模型（LLM）的训练，与GPU相比，所需代码减少了97%。 Cerebras表示，该公司已经看到了外界对CS-3的巨大兴趣，并有来自各个行业的大量订单积压，包括企业、政府和公有云厂商。 Cerebras还与美国阿贡国家实验室和梅奥诊所等机构合作，强调了CS-3在医疗保健方面的潜力。 Cerebras和G42之间的战略合作伙伴关系也将随着Condor Galaxy 3的建设而扩大，这是一款人工智能超级计算机，拥有64个CS-3系统（拥有57600000个核心）。
37210编辑于 2024-03-18
来自专栏DeepHub IMBA
DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度
2、Cerebras CS-3 AI加速器提高了稀疏预训练的效率原生支持非结构化稀疏性：Cerebras CS-3 设计时就考虑到了非结构化稀疏性的需求。细粒度数据流执行：CS-3 的数据流执行模式能够有效利用数据稀疏性。在这种模式下，只有非零数据触发计算，从而减少了不必要的计算步骤。与PyTorch的无缝集成：Cerebras CS-3 能够与流行的机器学习框架如PyTorch无缝集成，使开发者可以轻松利用其硬件优势而无需对现有代码进行大量修改。理论性能与实际性能接近：在论文中提供的实验中，Cerebras CS-3 的实际性能与理论性能非常接近，表明其硬件设计和执行模型高度优化，能够实现预期的稀疏操作加速。 Cerebras CS-3 AI加速器在此过程中扮演了关键角色，它通过原生支持非结构化稀疏性和高带宽内存架构，大幅提高了稀疏预训练的效率。
1.2K10编辑于 2024-05-20
来自专栏芯智讯
晶圆级AI芯片WSE-3推理性能公布：在80亿参数模型上每秒生成1800个Token
与此同时，Cerebras还推出了基于WSE-3的CS-3超级计算机，可用于训练参数高达24万亿的人工智能模型，这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。 Feldman表示，他们正在使用相同的 WSE-3 芯片和 CS-3 系统进行推理和训练。 “我们所做的是扩展了编译器的功能，可以同时在芯片上放置多个层，”Feldman解释说。与现代 GPU 非常相似，Cerebras 通过跨多个 CS-3 系统并行化模型来应对这一挑战。具体来说，Cerebras 正在使用管道并行性将模型的层分布到多个系统。对于需要 140GB 内存的 Llama 3 70B，该模型的 80 层分布在四个通过以太网互连的 CS-3 系统中。这确实会带来性能损失，因为数据必须通过这些链接。对于更大的模型，例如最近宣布的 4050 亿参数变体的 Llama 3，Cerebras 估计它将能够使用 12 个 CS-3 系统实现每秒约 350 个Token。
57210编辑于 2024-09-02
来自专栏光芯前沿
Cerebras的晶圆级算力革命
CS-3作为基于WSE-3的系统，在核心性能指标上全面超越GPU：芯片尺寸、核心数量、片上内存、内存带宽和架构带宽分别达到H100的57倍、52倍、880倍、7000倍和3715倍。凭借这种性能优势，单个CS-3芯片可在一天内完成LLaMA 70B模型10亿token的微调任务，远超传统GPU集群的效率。 MemoryX支持DDR5和Flash混合存储，兼顾性能与成本效率，配合多CPU架构，可支持所有常见机器学习操作，单个CS-3系统配备36TB DDR5内存（支持7200亿参数）和1.2PB Flash SwarmX架构作为专为晶圆级系统设计的互联方案，支持跨CS-3系统的数据并行训练，权重广播与梯度归约高效完成，多系统扩展时保持与单系统一致的执行模型、网络流和软件接口，实现近乎线性的缩放效果。其中Condor Galaxy 1配备64个CS-2，提供4EFLOP/s算力和82TB内存；Condor Galaxy 2则采用192个CS-3，实现24EFLOP/s算力和324TB内存，满足不同规模的计算需求
33610编辑于 2025-12-25
来自专栏存储公众号：王知鱼
Cerebras：存储系统系统与新兴存储机遇
HBM的架构示意图本报告将深入剖析Cerebras加速卡（以CS-3系统及WSE-3芯片为核心）的存储系统设计，详细对比其与GPU HBM及CPU DRAM的架构差异，阐述其如何通过“权重流”（Weight
11510编辑于 2026-03-09

4万亿晶体管5nm制程，全球最快AI芯片碾压H100！单机可训24万亿参数LLM，Llama 70B一天搞定

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

4万亿个晶体管，90万个AI核心，Cerebras第三代晶圆级AI芯片来了！

DeepSparse: 通过剪枝和稀疏预训练，在不损失精度的情况下减少70%的模型大小，提升三倍速度

晶圆级AI芯片WSE-3推理性能公布：在80亿参数模型上每秒生成1800个Token

Cerebras的晶圆级算力革命

Cerebras：存储系统系统与新兴存储机遇

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐