896 TFLOPS的“中国速度”：中昊芯英“须臾”的破局逻辑

文章来源：企鹅号 - 天雨侠

6月30日，中昊芯英正式发布新一代全自研高性能TPU AI专用算力芯片“须臾”。单芯片混合精度浮点算力达896 TFLOPS，8-bit推理算力达1792 TOPS。作为对比，性能是上一代“刹那”的整整3倍。

算力数字只是表象，真正值得审视的是“须臾”背后三重不可逆的产业逻辑。

第一重：从“可用”到“好用”的生态跨越。 2023年“刹那”流片量产，解决了国产TPU“有没有”的问题。而“须臾”要解决的，是“好不好用”。泰则2.0平台原生支持PyTorch、vLLM、SGLang等主流AI框架，适配DeepSpeed、Megatron-LM分布式套件。已完成Qwen全系列、DeepSeek、GLM、MiniMax等数十款大模型深度适配。开发者无需大规模代码改造即可完成模型迁移——这条“平滑迁移”的路径，才是国产算力从“备选”走向“正选”的关键。

第二重：全自研的“根技术”闭环。 “须臾”延续全自研TPU路线，芯片IP核、专属指令集、底层算子加速库、整机系统软件完整自主研发，无海外核心技术依赖。公司核心技术完整覆盖芯片设计、电路开发、编译工具、模型适配全链条。在政务、金融、电网等关键行业，这种“从指令集到系统”的自主权，意味着信息安全和供应链的双重保障。

第三重：词元经济时代的算力“成本重构”。 2026年，AI产业正从“算力时租”转向“词元计价”的MaaS模式。“须臾”与泰则2.0针对词元生成、上下文缓存及批量推理进行专属优化。单芯片额定功耗仅600W，较同等算力水平的传统芯片功耗降低50%；泰则2.0单机算力达7.168P，整机能耗仅为传统GPU服务器的80%。单位算力建设成本仅为海外高端产品的60%。当AI算力成本从“不计代价”走向“精打细算”时，能效比和单位成本才是真正的竞争壁垒。

当然，挑战同样真实。从896 TFLOPS到规模化部署，从软件兼容到生态繁荣，中间还隔着开发者社区的培育和行业标杆项目的验证。但“须臾”的发布已经证明了一条路：在AI算力这个被巨头定义多年的赛道上，中国企业正在用全自研的TPU架构，重新划定起跑线。

当896 TFLOPS的算力从国产芯片出发，被改变的不只是一组参数——而是全球AI算力版图上，中国坐标从“跟跑”到“并跑”的那条分界线。

发表于: 1天前2026-07-01 10:33:04
原文链接：https://page.om.qq.com/page/OP1Onkp_DGjo_OJsetdIwljQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

896 TFLOPS的“中国速度”：中昊芯英“须臾”的破局逻辑

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐