搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

腾讯云异构计算及高性能智算产品体系概要
训推加速套件。加速框架层：TACO LLM、TACO DIT、自动驾驶训练、Hyper Drive（训练吞吐超友商150%）。 HAI推理集群功能：智能扩缩、推理加速、机密计算、异步推理、多样化模型、弹性算力、多层级安全防护。；“零”改造适配（业务代码无侵入）、框架独家优化（软硬协同定制）；算力编排（训练一键部署、支持主流AI框架/模板、推理混布调度）；计算能力编排；加密框架层优势；云原生一致体验；释放GPU算力，为大模型训推加速五、总结腾讯云异构计算及高性能智算产品体系（含HCC、HAI、HAI推理集群），以3.2T RDMA星脉网络、1TB/s存储等硬核指标为基础，通过TACO训推加速套件（训练推速80%）、HAI低门槛部署
12220编辑于 2026-04-25
2025 IDC AI Infra: 加速智能体落地的基础架构发展趋势与产业实践发布，腾讯云智算赋能千行百业智能化落地
,技术服务,医疗 •产品标签： #高性能计算集群HCC（软硬自研一体，搭载3.2T RDMA星脉网络） #智能高性能网络IHN（QP源端口预规划、端网拓扑亲和、TCCL通信库） #训推加速套件 TACO（含TACO Train训练加速、TACO LLM推理加速、TACO DiT生图/视频推理加速） #向量数据库（国内首家获中国信通院认证，支撑千亿级向量存储、五百万QPS、毫秒级延迟，日处理 undefined•核心分析模型架构图关键要素：四层架构：分布式AI Infra底座层（混合云/云边端）、异构AI Infra硬件层（CPU/GPU/TPU/XPU）、高性能AI Infra软件层（算力调度、训推平台解决方案：AI Infra需演进为四层架构+六大核心能力，顺应六大趋势（架构重构、行业垂直化、算力智能化、安全能力提升、研发范式革新、服务化转型），通过场景化服务（如交通出行云边端协同、工业制造私有化部署+训推加速腾讯云智算凭借技术先进性、唯一性及场景化落地能力，成为企业AI Infra优选： •技术先进性：自研产品矩阵性能领先：#高性能计算集群HCC（机器上架至训练仅需1天）、#智能高性能网络IHN（支撑万亿大模型）、#训推加速套件
16410编辑于 2026-04-15
来自专栏腾讯云服务器团队的专栏
TACO-LLM发布！助力大模型极致加速
TACO-LLM 是基于腾讯云异构计算产品推出的一款大语言模型推理加速引擎，用于提高语言模型的推理效能。本篇文章将介绍TACO-LLM的优化原理如果您希望了解更多产品合作信息 >> 欢迎点击链接联系我们 << TACO-LLM 应用场景 TACO-LLM适用于生成式语言模型的推理加速业务，可满足多种业务场景下推理提效的需求 TACO-LLM针对这种时延敏感的场景提供有竞争力的加速方案，帮助您获得业界有优势的终端客户体验。因此很难发挥出GPU或其他加速硬件的并行加速能力。同时，较低的Arithmetic Intensity对显存带宽的利用也提出了挑战。再者，大模型的“大”对显存容量提出了最直接的挑战。未来TACO-LLM将持续迭代，通过不断的技术创新和优化，进一步提高推理效率，并支持更多加速芯片，护航客户在腾讯云异构计算平台上业务高性能、高效率、高性价比稳定运行。
2.4K30编辑于 2023-11-17
国产GPU选型实践与TCE智算解决方案：性能、生态与成本优化路径
生态与技术支持：兼容CUDA API兼容派（海光HIP、沐曦MXMACA，业务代码无需修改）与自主生态派（华为CANN，国产合规性较强）；提供自研加速套件TACO Train（训练）/TACO Infer （推理），集成TI训推平台、ADP智能体平台；支持一云多芯（适配海光、昆仑芯、沐曦、昇腾等），满足监管与多元算力需求。客户实践案例：搜广推场景国产GPU选型优化某客户（搜广推应用部）通过TCE智算方案评测国产卡性能，原方案L20（关注GPU）升级为BW151/天垓150（同步关注CPU核心数、内存容量），结合Qwen2.5 选择腾讯TCE智算的技术确定性与生态优势技术领先性：自研TACO Train/Infer加速套件覆盖训推全周期；高性能网络HHN（200G*8 Port，1.6Tbps）、存储TKE支撑万卡集群；万卡集群技术成熟生态完整性：支持GPGPU通用架构（海光、沐曦，代码迁移成本低）与DSA专用架构（华为昇腾、寒武纪，高能效比）；提供操作系统（主流OS/K8S）、训推组件（高通用性/时效性）全栈软件服务，降低落地门槛。
35710编辑于 2026-04-03
国产GPU全景选型与量化实践：打通大模型训推的性能与生态瓶颈
搜广推与中等模型：高度依赖CPU核心数与内存容量，推荐由原L20方案向海光BW151 / 天垓150 演进。为避免“账面数据”与“生产表现”脱节，腾讯通过横向拉通多厂商设备的实战评测，为业务平滑迁移提供了确定性的决策支撑：穿透业务核心场景：测试维度不仅包含GEMM算力与显存带宽的基础压测，更全面覆盖了LLM训推例如，测试场景直接嵌入了元宝大模型平均输入3.5K / 输出1K的真实生产数据结构，并为搜广推应用部门独立评测并输出了多款国产卡型的真实业务表现。云原生训推加速引擎集成：内置云原生编排调度（TKE/qGPU）及自研训推加速套件（TACO Train / TACO Infer），支持分布式训练推理加速，并无缝集成TI训推平台与ADP智能体平台，支撑企业一键提升
37710编辑于 2026-04-01
2025年中国专有云市场报告—雷达图
发布机构：沙利文咨询（Frost & Sullivan）、头豹研究院发布时间：2025年12月行业标签：政务,金融,能源,医疗,工业产品标签：#专有云TCE, #专有云TCS, #TI-One训推平台 , #TACO训推加速框架, #高性能计算HCC 第二章：报告背景和目标本报告旨在分析中国专有云市场从单一IT形态向面向大模型的 “智算基础设施” 升级的现状，重点评估市场竞争态势及领导者品牌的差异化优势通过训推全栈一体化和异构算力统一调度（CPU/GPU/NPU），解决了企业构建专属大模型时的算力瓶颈与数据安全痛点。全栈AI生产力平台：通过 TI-One训推平台和 TACO训推加速框架，构建了面向大模型时代的自主可控、弹性伸缩的全栈数字化底座，有效支撑企业从IaaS层到MaaS层的智能化转型。
19010编辑于 2026-02-03
腾讯云Agent生态与算力解决方案：高效运维与AI应用落地实践
2.3 GPU一云多芯智算方案：全栈算力优化方案：基于“一云多芯”架构，整合星脉网络（1.6T RDMA）、星星海服务器、自研芯片（紫霄、沧海）、TACO训推加速套件，实现计算/存储/网络协同（来源： 2.4 HAI高性能应用服务：大模型推理全托管方案：提供一键部署、全托管免运维的大模型推理服务，支持单机/多机/模型组部署，集成TACO推理加速（投机采样、Auto Prefix Cache）、4bit QPM较FP8单机提升1.5~4倍（来源：“推理加速: 基于自研TACO的DeepSeek模型定制推理加速”“量化性能提升”）。自研算力优化：TACO训推加速套件（推理性能提升30%+）、HML极速加载（RDMA P2P传输）、qGPU共享（业内唯一在离线混部）、vRDMA弹性网卡（零成本RDMA适配）（来源：“腾讯云算力方案” 数据来源：腾讯全球数字生态大会演讲材料（主讲人：梁居宝、曹峻玮、龚学健、李东昊）、腾讯云官方技术文档（如TACO加速、HAI产品说明）。
11710编辑于 2026-04-25
国产GPU实现关键场景性能突破，腾讯云TCE智算提供全栈解决方案
腾讯云TCE智算全栈解决方案腾讯云TCE智算提供同源同构的混合云方案，集成多元国产算力与自研加速套件：硬件层：支持海光、昆仑芯、沐曦、昇腾等主流国产GPU，提供训练、推理及科学计算多元算力软件层：内置TACO Train训练加速与TACO Infer推理加速套件，提供分布式训练/推理优化平台层：集成TI训推平台与ADP智能体平台，支持云原生编排调度与MaaS服务网络架构：自研高性能网络HCC 场景性能领先国产同类产品客户实践：某大型AI企业算力迁移案例某头部AI企业在腾讯云TCE智算平台部署国产GPU集群，实现关键业务迁移：采用海光BW1000_H替代原国际方案，完成Qwen大模型训练任务通过腾讯TACO 生态兼容性：支持CUDA兼容派（海光/沐曦）与自主生态派（华为/寒武纪）多种架构，提供平滑迁移路径规模验证：万卡集群技术成熟，支撑万亿参数模型训练，平均故障间隔>10万小时全栈优化：从芯片级调优到框架层加速，自研TACO组件实现训练性能提升40%以上方案获2024年中国信通院"算力服务创新奖"，数据来源：腾讯全球数字生态大会城市峰会演讲材料，TCE智算首席架构师罗翀测试环境：腾讯云标准测试平台，
33910编辑于 2026-04-03
腾讯云异构计算与高性能集群（HCC/HAI）产品技术与应用概要
软硬协同加速：通过 TACO 训推加速套件、一云多芯及自研星星海服务器，实现大模型训推提速 80%。框架/加速层：包含 TACO LLM 大模型加速、TACO DiT 文生视频、Hyper Drive 自动驾驶训练优化及 qGPU 算力共享技术。框架优化吞吐： TACO LLM（FP8 混精训练）训练吞吐超友商 150%；TACO DiT 推理速度提升 122%；Hyper Drive（算子优化）训练吞吐提升 120%。推理加速：基于自研推理引擎、共享 KVCache、P2P 模型加载技术。机密计算：支持 TEE 技术，确保用户模型与数据安全。异步推理：内部集成消息队列，支持按需扩缩容与免运维。 (总结：腾讯云异构计算平台通过底层物理网络/存储指标的绝对领先，结合中间件架构层的极致切分与加速，最终在应用端为大模型及各类高性能场景提供了高吞吐、低故障、易部署的标准化算力底座，其商业价值在降本增效的核心数据上得到了充分验证
12110编辑于 2026-04-25
2025 IDC《AI Infra：加速智能体落地的基础架构发展趋势与产业实践》发布，腾讯云智算底座获权威认可
HCC, #智能高性能网络IHN, #高性能应用服务HAI, #腾讯云向量数据库, #云原生调度编排TKE, #对象存储COS, #腾讯云Data Platform, #AgentRuntime, #训推加速套件 TACO 第二章：报告背景和目标随着AI应用迈向规模化落地阶段，企业级智能体（Agent）正加速渗透千行百业，驱动云基础设施从单纯的算力供给向业务赋能的AI Infra演进。训推一体化加速智能体（Agent）生产环境落地：随着Agent应用复杂度的提升，单一算力模式已无法满足需求。为什么选择腾讯云算存网数一体的高阶技术先进性：腾讯云提供软硬自研一体的高性能智算底座，集结高性能计算集群HCC、智能高性能网络IHN（3.2T RDMA高带宽）、高性能并行文件存储CFS Turbo及训推加速套件 TACO。
42720编辑于 2026-04-15
腾讯云智能体及AI Infra行业应用概要：从痛点解决到价值落地
提供智能体开发及AI Infra解决方案腾讯云以“智能体开发平台+AI Infra底座”为核心，提供全栈技术支撑，覆盖模型训推、数据治理、安全防护、场景落地全流程。 AI Infra底座：算存网数一体：高性能计算集群HCC（RDMA/vRDMA网络）、智能高性能网络IHN、高性能存储（COS+GooseFSx）、训推加速套件TACO（训练/推理/DiT加速）。 —— 得理科技联合创始人（案例隐含）总结选择腾讯云的核心优势全栈AI Infra能力：算存网数一体（HCC/IHN/TurboFS/TACO），支持训推一体、弹性扩缩容，资源利用率提升80%+（
43120编辑于 2026-04-03
来自专栏腾讯云服务器团队的专栏
推理效能最高提升至242%——腾讯云计算加速套件 TACO Kit
计算加速套件 TACO Kit 简介从推荐系统、自动驾驶到聊天机器人，AI 正逐渐渗透到我们生活的每个角落。特别的，针对 AMD EPYC CPU 后端，为了最大限度优化推理性能，腾讯云和 AMD 发团队深度合作，无缝集成了 AMD 推理加速库“ZenDNN”作为 TACO Infer 的高性能算子实现候选。 TACO Infer 旨在帮助用户充分应对上述挑战，通过跨平台统一的优化接口赋能用户，让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。 TACO Infer 强大的可扩展性设计也使得硬件厂商依照硬件特性开发的加速库，例如 ZenDNN、TensorRT 等，得以和 TACO 无缝集成，再辅以 TACO Infer 自研的代码生成技术，无论用户使用何种硬件加速实例扫码免费试用登录腾讯云官网了解 TACO Kit 更多信息；登录ZenDNN官网了解如何在 AMD EPYC 处理器上使用 AMD AI 推理加速库; 欢迎扫码加入 TACO Infer 加速引擎交流群
1.4K10编辑于 2022-08-25
来自专栏自然语言处理(NLP)论文速递
Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升
在英特尔宣布其最新人工智能加速器硬件的第二天，Meta 便迅速公布了关于芯片研发的最新成果：下一代 MTIA（Meta Training and Inference Accelerator），其中 MTIA 新一代芯片的最新加速器由 8x8 个处理元件 (PE) 组成。这些 PE 显着提高了密集计算性能（比 MTIA v1 提高了 3.5 倍）和稀疏计算性能（提高了 7 倍）。为了支持下一代 MTIA 芯片，Meta 开发了一个大型机架式系统，最多可容纳 72 个加速器。该系统由三个机箱组成，每个机箱包含 12 个板，每个板上有两个加速器。此外，Meta 还将加速器之间、主机与加速器之间的结构升级到 PCIe Gen5，以提高系统的带宽和可扩展性。如果选择横向扩展至机架之外，还能添加一个 RDMA NIC。
24210编辑于 2024-04-12
来自专栏机器之心
Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升
在英特尔宣布其最新人工智能加速器硬件的第二天，Meta 便迅速公布了关于芯片研发的最新成果：下一代 MTIA（Meta Training and Inference Accelerator），其中 MTIA 新一代芯片的最新加速器由 8x8 个处理元件 (PE) 组成。这些 PE 显着提高了密集计算性能（比 MTIA v1 提高了 3.5 倍）和稀疏计算性能（提高了 7 倍）。为了支持下一代 MTIA 芯片，Meta 开发了一个大型机架式系统，最多可容纳 72 个加速器。该系统由三个机箱组成，每个机箱包含 12 个板，每个板上有两个加速器。此外，Meta 还将加速器之间、主机与加速器之间的结构升级到 PCIe Gen5，以提高系统的带宽和可扩展性。如果选择横向扩展至机架之外，还能添加一个 RDMA NIC。
36010编辑于 2024-04-12
腾讯云异构计算产品概要
软件层面：通过高性能应用服务HAI、推理集群、TACO训推加速套件（实现训练推速80% 提升）等，实现软硬协同优化。其实例丰富度全球领先，提供云上充沛算力，实现随取随用。加速性能：TACO套件实现训练推速80% 提升，训练吞吐超友商150%。 3. 产品优势极致性能：通过软硬协同优化，充分释放GPU算力，突破算力瓶颈。推理加速（推理集群）：提升推理效率。机密计算（推理集群）：提供高级安全防护，保障数据安全。异步推理（推理集群）：支持多种推理模式。 4. 荣誉背书原文未提供相关技术荣誉和奖项信息。
5610编辑于 2026-04-25
云+AI共建银行数智化未来——腾讯技术驱动的金融业务提效与场景落地
智算资源调度低效：异构算力利用率低，训练与推理资源割裂，缺乏训推一体潮汐调度能力。数据治理与自主创新压力：软件供应链安全风险、核心系统替换难度大、国产软硬件兼容复杂，需平衡性能与自主可控。 TCE一站式智算集群：提供通算智算一体化能力，搭载TACO Train训练加速、星脉IHN 3.2T高速RDMA网络、TurboFS存储，支持异构算力灵活调度与智能运维故障自愈。，训推潮汐调度实现在线推理闲时算力用于离线训练。某头部商业银行智算平台案例：部署TCE一站式智算集群，达成一云多芯多卡适配、百余场景稳定运行、高效支撑模型训推，典型场景含AI知识库、智能客服、风险管理（来源：该银行案例）。 AI工程化能力：TI平台Angel推理加速业界领先（算子/Kernel优化、int4量化、多专家并行），训推潮汐调度支持优先级配置与服务弹性伸缩（来源：TI平台数据）。
26220编辑于 2026-04-21
来自专栏腾讯云原生团队
GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！
目前业内有很多分布式训练的加速技术，例如多级通信、多流通信、梯度融合、压缩通信等，TACO-Training 也引入了类似的加速技术，同时 TACO-Training 不同于业界其他方案的创新点在于自定义用户态协议栈 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎，为用户提供开箱即用的 AI 训练套件。性能数据下图展示了在 CVM GPU 训练集群下，各个开源模型使用 TACO training 进行分布式训练的加速效果。部署实践为了复现上述性能加速效果，接下来我们开始学习如何一步一步搭建 TKE Kubeflow + TACO-training 的 GPU 分布式训练集群。接着我们展示了有 HARP 加持的 TACO-Training 引擎的加速效果：在相同的 25G VPC 环境下，相比于业内开源方案 Horovod，TACO 可以提供20%- 200%左右的性能提升
1.7K20发布于 2021-11-26
来自专栏腾讯云服务器团队的专栏
GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！
TACO-Training 在云服务器和云容器环境下都可以部署，在 GPU 云服务器上的TACO-Training 训练加速部署方案已经在官网文档上线，具体可参见 GPU 云服务器上部署 AI 加速引擎本文将为大家介绍基于腾讯云容器服务（TKE）的部署方案，让我们一起了解 TACO-Training 在云容器上的分布式训练加速方案，借助腾讯云自研网络协议栈 HARP，加速 AI 训练！介绍 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎，为用户提供开箱即用的 AI 训练套件。性能数据下图展示了在 CVM GPU 训练集群下，各个开源模型使用 TACO training 进行分布式训练的加速效果。接着我们展示了有 HARP 加持的 TACO-Training 引擎的加速效果：在相同的 25G VPC 环境下，相比于业内开源方案 Horovod，TACO 可以提供20%- 200%左右的性能提升
1.8K20发布于 2021-11-26
来自专栏腾讯云服务器团队的专栏
腾讯云上线 TACO 加速版，推理速度狂飙80%
腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」，推出DeepSeek-R1 32B TACO加速版环境！ TACO-LLM：专业级推理加速引擎腾讯云TACO-LLM（TencentCloud Accelerated Computing Optimization LLM）作为面向大语言模型的推理加速引擎，通过充分利用计算资源的并行计算能力实测效果认证为推理加速「黑科技」 DeepSeek-R1 32B TACO加速版环境，相比于vLLM，可在多个场景提升token吞吐能力，降低生成结果的等待时间，推理流程全面提效。 3分钟上手，上HAI开启TACO版加速体验如此加速能力，现已上线腾讯云高性能应用服务HAI 。并且开箱即用，3分钟即可用上这款 AI 开发者的「躺平神器」，堪称双倍加速。 DeepSeek-R1 671B TACO加速满血版环境快马加鞭上线中，敬请期待！
78110编辑于 2025-03-17
高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版
一、环境说明TACO-LLM（TencentCloud Accelerated Computing Optimization LLM），是腾讯云自研的一款面向大模型的推理框架，TACO-LLM默认集成在了 TencentOS Server AI中，相比其他开源框架，TACO-LLM具有更好的稳定性、安全性以及更高的性能，通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化，环境中已预装DeepSeek-R1:32b 加速版环境，用户可在开机后直接基于环境进行加速版调用，在不同场景下，相比vllm框架平均提速80%二、部署方式1. 创建实例选择“社区应用”-“DeepSeek-R1 32B TACO 加速版”环境进行创建，实例选择“旗舰型”2.
34710编辑于 2025-03-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

腾讯云异构计算及高性能智算产品体系概要

2025 IDC AI Infra: 加速智能体落地的基础架构发展趋势与产业实践发布，腾讯云智算赋能千行百业智能化落地

TACO-LLM发布！助力大模型极致加速

国产GPU选型实践与TCE智算解决方案：性能、生态与成本优化路径

国产GPU全景选型与量化实践：打通大模型训推的性能与生态瓶颈

2025年中国专有云市场报告—雷达图

腾讯云Agent生态与算力解决方案：高效运维与AI应用落地实践

国产GPU实现关键场景性能突破，腾讯云TCE智算提供全栈解决方案

腾讯云异构计算与高性能集群（HCC/HAI）产品技术与应用概要

2025 IDC《AI Infra：加速智能体落地的基础架构发展趋势与产业实践》发布，腾讯云智算底座获权威认可

腾讯云智能体及AI Infra行业应用概要：从痛点解决到价值落地

推理效能最高提升至242%——腾讯云计算加速套件 TACO Kit

Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升

Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升

腾讯云异构计算产品概要

云+AI共建银行数智化未来——腾讯技术驱动的金融业务提效与场景落地

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！

腾讯云上线 TACO 加速版，推理速度狂飙80%

高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

腾讯云异构计算及高性能智算产品体系概要

2025 IDC AI Infra: 加速智能体落地的基础架构 发展趋势与产业实践 发布，腾讯云智算赋能千行百业智能化落地

TACO-LLM发布！助力大模型极致加速

国产GPU选型实践与TCE智算解决方案：性能、生态与成本优化路径

国产GPU全景选型与量化实践：打通大模型训推的性能与生态瓶颈

2025年中国专有云市场报告—雷达图

腾讯云Agent生态与算力解决方案：高效运维与AI应用落地实践

国产GPU实现关键场景性能突破，腾讯云TCE智算提供全栈解决方案

腾讯云异构计算与高性能集群（HCC/HAI）产品技术与应用概要

2025 IDC《AI Infra：加速智能体落地的基础架构发展趋势与产业实践》发布，腾讯云智算底座获权威认可

腾讯云智能体及AI Infra行业应用概要：从痛点解决到价值落地

推理效能最高提升至242%——腾讯云计算加速套件 TACO Kit

Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升

Meta宣布全新训推一体加速器：完全集成PyTorch 2，性能3倍提升

腾讯云异构计算产品概要

云+AI共建银行数智化未来——腾讯技术驱动的金融业务提效与场景落地

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发！

腾讯云上线 TACO 加速版，推理速度狂飙80%

高性能应用服务HAI - DeepSeek-R1 32B TACO 加速版

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2025 IDC AI Infra: 加速智能体落地的基础架构发展趋势与产业实践发布，腾讯云智算赋能千行百业智能化落地