首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云与AMD联合方案:算力底座与AI大模型场景化落地实践

腾讯云与AMD联合方案:算力底座与AI大模型场景化落地实践

原创
作者头像
IT资讯研究所
发布2026-05-30 08:46:57
发布2026-05-30 08:46:57
1530
举报

行业算力瓶颈与AI应用挑战

  • 算力供需失衡: AI大模型训练算力需求呈指数级增长,每3.4个月翻一倍(数据来源:1Epoch AI、2IDC、3国家数据局、4Gartner),企业面临算力短缺与成本压力。
  • 基础设施挑战: AI大模型落地需应对算力资源供需、适配与成本优化、易用性与多生态兼容三大核心挑战。
  • 知识库应用痛点: 传统知识库系统在图文混排文档、复杂表格及多模态内容解析上存在盲区,影响RAG(检索增强生成)应用效果。
  • 资源利用率低: 在线业务存在明显潮汐现象,夜间容器资源闲置率高达500(相对峰值),导致算力浪费。

构建软硬一体化智算底座

  • AMD 第五代 EPYC™(Turin)特性: 采用3nm/4nm工艺,最高192核心384线程,支持全AVX512指令集,IPC(每时钟周期指令数)提升17%
  • 算力性能表现(基于AMD内部测试):
    • 通用计算: 相比上一代,5th Gen EPYC™ 9965在SPECrate2017_int_base性能提升2.7倍;在同核心数(64核)虚拟化环境中,性能提升1.6倍
    • AI负载: 端到端AI工作负载性能提升3.8倍
    • TCO优化: 通过服务器整合(7:1 consolidation),实现减少约87%服务器数量、降低约67%总体拥有成本(TCO)、减少约68%功耗
  • 腾讯云智算架构: 推出“一云多芯”方案,支持国内外主流芯片。高性能计算集群(HCC)配合星脉网络,实现千卡集群训练性能扩展比高达96%,资源利用率达99%,模型训练提效200%
  • 存储与网络加速:
    • 存储: 3TB checkpoint写入时间从10分钟缩短至10秒内
    • 网络: 自研交换机与多轨道网络架构,路径时延降低40%;TCCL(高性能通信库)使AllReduce负载率达90%以上;故障自愈能力实现1分钟发现、3分钟定位、5分钟自愈

量化业务指标与应用成效

  • 训练与推理加速:
    • 训练加速(TACO-Train): 对比友商性能领先15%-20%,千卡扩展比达95%
    • 推理加速(TACO-LLM): LLM推理性能提升2倍;推理业务性价比提升20%~50%
    • 文生图加速(TACO-DiT): 性能提升2倍,显存占用减少30~50%
  • 知识引擎效能(基于LLM+RAG):
    • OCR解析: 大模型准确率提升25%
    • Embedding识别: 准确率提升3倍
    • 语义切分: 相比传统正则方式,回答完整性提升2倍
    • 检索模型: PEG检索模型斩获MTEB中文榜单第一
  • 大数据处理优化:
    • Spark内核增强: Spark on EMR性能比Apache Spark提升30%;支持ZORDER算法,查询性能最高提升10倍以上;Alluxio缓存加速,Load性能提升6倍
    • 语料处理(DLC): 某AIGC客户算力节约30%,性能提升35.5%
    • 自研Tsearch: 相比原生ES,写入性能提升10倍+,单位存储大小减少80%
  • 大模型能力认证: 腾讯混元Turbo在MMLU评测中得分86.46,在2024年中国大模型行研能力评测中位列第二(8.650分),位居国内第一梯队(数据来源:SuperCLUE)。

客户实践与场景落地

  • 微信读书(RAG应用):
    • 资源成本: 向量检索硬件从400台64G机器降至30台
    • 运维效率: 从跨4套系统调优转为Kibana一站式调试。
    • 检索性能: 数亿量级索引召回平均耗时在100ms以下
  • 王者荣耀(智能客服): 接入混元大模型后,客服回复满意率达到89%,为历史最优水平。
  • 国产推理客户(某大型社交平台): 使用PTX2实例及九霄软件栈,在1个月内完成NLP、CV共6个模型的适配和迁移,实现供应链多元化。
  • 长相思(角色扮演AI): 上线2天交互破千万,2周破亿;相柳单人日均聊天轮次保持在400轮;某角色扮演模型回复准确率(所问即所答)与人设符合率显著提升。

为什么选择腾讯云与AMD

  • 技术领导力(AMD): AMD EPYC™在服务器CPU领域拥有300+项世界纪录。自2018年至2024年,EPYC服务器市场份额从2%增长至34%(数据来源:Mercury Research)。
  • 全栈技术整合: 依托腾讯自研星脉网络、TACO加速套件、HCC集群与AMD 5th Gen EPYC™Instinct™ GPU,提供从基础设施到上层应用的完整技术闭环。
  • 开源生态贡献: 腾讯在大数据与AI领域拥有100+位PMC/Committer,累计贡献800万+行社区代码,主导Apache Inlong、Ozone等顶级开源项目,确保技术栈的开放性与兼容性。
  • 市场认可度: 腾讯云智算底座覆盖全国90%+的大模型客户,实测可用性达99.9%,经历腾讯内部600+业务及混元大模型自身训练的严苛验证。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 行业算力瓶颈与AI应用挑战
  • 构建软硬一体化智算底座
  • 量化业务指标与应用成效
  • 客户实践与场景落地
  • 为什么选择腾讯云与AMD
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档