首页
学习
活动
专区
圈层
工具
发布

896 TFLOPS的“中国速度”:中昊芯英“须臾”的破局逻辑

6月30日,中昊芯英正式发布新一代全自研高性能TPU AI专用算力芯片“须臾”。单芯片混合精度浮点算力达896 TFLOPS,8-bit推理算力达1792 TOPS。作为对比,性能是上一代“刹那”的整整3倍。

算力数字只是表象,真正值得审视的是“须臾”背后三重不可逆的产业逻辑。

第一重:从“可用”到“好用”的生态跨越。 2023年“刹那”流片量产,解决了国产TPU“有没有”的问题。而“须臾”要解决的,是“好不好用”。泰则2.0平台原生支持PyTorch、vLLM、SGLang等主流AI框架,适配DeepSpeed、Megatron-LM分布式套件。已完成Qwen全系列、DeepSeek、GLM、MiniMax等数十款大模型深度适配。开发者无需大规模代码改造即可完成模型迁移——这条“平滑迁移”的路径,才是国产算力从“备选”走向“正选”的关键。

第二重:全自研的“根技术”闭环。 “须臾”延续全自研TPU路线,芯片IP核、专属指令集、底层算子加速库、整机系统软件完整自主研发,无海外核心技术依赖。公司核心技术完整覆盖芯片设计、电路开发、编译工具、模型适配全链条。在政务、金融、电网等关键行业,这种“从指令集到系统”的自主权,意味着信息安全和供应链的双重保障。

第三重:词元经济时代的算力“成本重构”。 2026年,AI产业正从“算力时租”转向“词元计价”的MaaS模式。“须臾”与泰则2.0针对词元生成、上下文缓存及批量推理进行专属优化。单芯片额定功耗仅600W,较同等算力水平的传统芯片功耗降低50%;泰则2.0单机算力达7.168P,整机能耗仅为传统GPU服务器的80%。单位算力建设成本仅为海外高端产品的60%。当AI算力成本从“不计代价”走向“精打细算”时,能效比和单位成本才是真正的竞争壁垒。

当然,挑战同样真实。 从896 TFLOPS到规模化部署,从软件兼容到生态繁荣,中间还隔着开发者社区的培育和行业标杆项目的验证。但“须臾”的发布已经证明了一条路:在AI算力这个被巨头定义多年的赛道上,中国企业正在用全自研的TPU架构,重新划定起跑线。

当896 TFLOPS的算力从国产芯片出发,被改变的不只是一组参数——而是全球AI算力版图上,中国坐标从“跟跑”到“并跑”的那条分界线。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OP1Onkp_DGjo_OJsetdIwljQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券