首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 腾讯云异构计算及高性能智算产品体系概要

    加速套件。 加速框架层:TACO LLM、TACO DIT、自动驾驶训练、Hyper Drive(训练吞吐超友商150%)。 HAI推理集群功能:智能扩缩、推理加速、机密计算、异步推理、多样化模型、弹性算力、多层级安全防护。 ;“零”改造适配(业务代码无侵入)、框架独家优化(软硬协同定制);算力编排(训练一键部署、支持主流AI框架/模板、推理混布调度);计算能力编排;加密框架层优势;云原生一致体验;释放GPU算力,为大模型加速 五、总结 腾讯云异构计算及高性能智算产品体系(含HCC、HAI、HAI推理集群),以3.2T RDMA星脉网络、1TB/s存储等硬核指标为基础,通过TACO加速套件(训练速80%)、HAI低门槛部署

    12220编辑于 2026-04-25
  • 2025 IDC AI Infra: 加速智能体落地的基础架构 发展趋势与产业实践 发布,腾讯云智算赋能千行百业智能化落地

    ,技术服务,医疗 •产品标签: #高性能计算集群HCC(软硬自研一体,搭载3.2T RDMA星脉网络) #智能高性能网络IHN(QP源端口预规划、端网拓扑亲和、TCCL通信库) #加速套件 TACO(含TACO Train训练加速TACO LLM推理加速TACO DiT生图/视频推理加速) #向量数据库(国内首家获中国信通院认证,支撑千亿级向量存储、五百万QPS、毫秒级延迟,日处理 undefined•核心分析模型架构图关键要素: 四层架构:分布式AI Infra底座层(混合云/云边端)、异构AI Infra硬件层(CPU/GPU/TPU/XPU)、高性能AI Infra软件层(算力调度、平台 解决方案:AI Infra需演进为四层架构+六大核心能力,顺应六大趋势(架构重构、行业垂直化、算力智能化、安全能力提升、研发范式革新、服务化转型),通过场景化服务(如交通出行云边端协同、工业制造私有化部署+加速 腾讯云智算凭借技术先进性、唯一性及场景化落地能力,成为企业AI Infra优选: •技术先进性: 自研产品矩阵性能领先:#高性能计算集群HCC(机器上架至训练仅需1天)、#智能高性能网络IHN(支撑万亿大模型)、#加速套件

    16410编辑于 2026-04-15
  • 来自专栏腾讯云服务器团队的专栏

    TACO-LLM发布!助力大模型极致加速

    TACO-LLM 是基于腾讯云异构计算产品推出的一款大语言模型推理加速引擎,用于提高语言模型的推理效能。 本篇文章将介绍TACO-LLM的优化原理 如果您希望了解更多产品合作信息 >> 欢迎点击链接联系我们 << TACO-LLM 应用场景 TACO-LLM适用于生成式语言模型的推理加速业务,可满足多种业务场景下推理提效的需求 TACO-LLM针对这种时延敏感的场景提供有竞争力的加速方案,帮助您获得业界有优势的终端客户体验。 因此很难发挥出GPU或其他加速硬件的并行加速能力。同时,较低的Arithmetic Intensity对显存带宽的利用也提出了挑战。再者,大模型的“大”对显存容量提出了最直接的挑战。 未来TACO-LLM将持续迭代,通过不断的技术创新和优化,进一步提高推理效率,并支持更多加速芯片,护航客户在腾讯云异构计算平台上业务高性能、高效率、高性价比稳定运行。

    2.4K30编辑于 2023-11-17
  • 国产GPU选型实践与TCE智算解决方案:性能、生态与成本优化路径

    生态与技术支持:兼容CUDA API兼容派(海光HIP、沐曦MXMACA,业务代码无需修改)与自主生态派(华为CANN,国产合规性较强);提供自研加速套件TACO Train(训练)/TACO Infer (推理),集成TI平台、ADP智能体平台;支持一云多芯(适配海光、昆仑芯、沐曦、昇腾等),满足监管与多元算力需求。 客户实践案例:搜广场景国产GPU选型优化 某客户(搜广应用部)通过TCE智算方案评测国产卡性能,原方案L20(关注GPU)升级为BW151/天垓150(同步关注CPU核心数、内存容量),结合Qwen2.5 选择腾讯TCE智算的技术确定性与生态优势 技术领先性:自研TACO Train/Infer加速套件覆盖全周期;高性能网络HHN(200G*8 Port,1.6Tbps)、存储TKE支撑万卡集群;万卡集群技术成熟 生态完整性:支持GPGPU通用架构(海光、沐曦,代码迁移成本低)与DSA专用架构(华为昇腾、寒武纪,高能效比);提供操作系统(主流OS/K8S)、组件(高通用性/时效性)全栈软件服务,降低落地门槛。

    35710编辑于 2026-04-03
  • 国产GPU全景选型与量化实践:打通大模型的性能与生态瓶颈

    搜广与中等模型:高度依赖CPU核心数与内存容量,推荐由原L20方案向 海光BW151 / 天垓150 演进。 为避免“账面数据”与“生产表现”脱节,腾讯通过横向拉通多厂商设备的实战评测,为业务平滑迁移提供了确定性的决策支撑: 穿透业务核心场景:测试维度不仅包含GEMM算力与显存带宽的基础压测,更全面覆盖了LLM 例如,测试场景直接嵌入了元宝大模型平均输入3.5K / 输出1K的真实生产数据结构,并为搜广应用部门独立评测并输出了多款国产卡型的真实业务表现。 云原生加速引擎集成:内置云原生编排调度(TKE/qGPU)及自研加速套件(TACO Train / TACO Infer),支持分布式训练推理加速,并无缝集成TI平台与ADP智能体平台,支撑企业一键提升

    37710编辑于 2026-04-01
  • 2025年中国专有云市场报告—雷达图

    发布机构:沙利文咨询(Frost & Sullivan)、头豹研究院 发布时间:2025年12月 行业标签:政务,金融,能源,医疗,工业 产品标签:#专有云TCE, #专有云TCS, #TI-One平台 , #TACO加速框架, #高性能计算HCC 第二章:报告背景和目标 本报告旨在分析中国专有云市场从单一IT形态向面向大模型的 “智算基础设施” 升级的现状,重点评估市场竞争态势及领导者品牌的差异化优势 通过全栈一体化和异构算力统一调度(CPU/GPU/NPU),解决了企业构建专属大模型时的算力瓶颈与数据安全痛点。 全栈AI生产力平台:通过 TI-One平台 和 TACO加速框架,构建了面向大模型时代的自主可控、弹性伸缩的全栈数字化底座,有效支撑企业从IaaS层到MaaS层的智能化转型。

    19010编辑于 2026-02-03
  • 腾讯云Agent生态与算力解决方案:高效运维与AI应用落地实践

    2.3 GPU一云多芯智算方案:全栈算力优化 方案:基于“一云多芯”架构,整合星脉网络(1.6T RDMA)、星星海服务器、自研芯片(紫霄、沧海)、TACO加速套件,实现计算/存储/网络协同(来源: 2.4 HAI高性能应用服务:大模型推理全托管 方案:提供一键部署、全托管免运维的大模型推理服务,支持单机/多机/模型组部署,集成TACO推理加速(投机采样、Auto Prefix Cache)、4bit QPM较FP8单机提升1.5~4倍(来源:“推理加速: 基于自研TACO的DeepSeek模型定制推理加速”“量化性能提升”)。 自研算力优化:TACO加速套件(推理性能提升30%+)、HML极速加载(RDMA P2P传输)、qGPU共享(业内唯一在离线混部)、vRDMA弹性网卡(零成本RDMA适配)(来源:“腾讯云算力方案” 数据来源:腾讯全球数字生态大会演讲材料(主讲人:梁居宝、曹峻玮、龚学健、李东昊)、腾讯云官方技术文档(如TACO加速、HAI产品说明)。

    11710编辑于 2026-04-25
  • 国产GPU实现关键场景性能突破,腾讯云TCE智算提供全栈解决方案

    腾讯云TCE智算全栈解决方案 腾讯云TCE智算提供同源同构的混合云方案,集成多元国产算力与自研加速套件: 硬件层:支持海光、昆仑芯、沐曦、昇腾等主流国产GPU,提供训练、推理及科学计算多元算力 软件层: 内置TACO Train训练加速TACO Infer推理加速套件,提供分布式训练/推理优化 平台层:集成TI平台与ADP智能体平台,支持云原生编排调度与MaaS服务 网络架构:自研高性能网络HCC 场景性能领先国产同类产品 客户实践:某大型AI企业算力迁移案例 某头部AI企业在腾讯云TCE智算平台部署国产GPU集群,实现关键业务迁移: 采用海光BW1000_H替代原国际方案,完成Qwen大模型训练任务 通过腾讯TACO 生态兼容性:支持CUDA兼容派(海光/沐曦)与自主生态派(华为/寒武纪)多种架构,提供平滑迁移路径 规模验证:万卡集群技术成熟,支撑万亿参数模型训练,平均故障间隔>10万小时 全栈优化:从芯片级调优到框架层加速 ,自研TACO组件实现训练性能提升40%以上 方案获2024年中国信通院"算力服务创新奖", 数据来源:腾讯全球数字生态大会城市峰会演讲材料,TCE智算首席架构师罗翀 测试环境:腾讯云标准测试平台,

    33910编辑于 2026-04-03
  • 腾讯云异构计算与高性能集群(HCC/HAI)产品技术与应用概要

    软硬协同加速: 通过 TACO 加速套件、一云多芯及自研星星海服务器,实现大模型提速 80%。 框架/加速层: 包含 TACO LLM 大模型加速TACO DiT 文生视频、Hyper Drive 自动驾驶训练优化及 qGPU 算力共享技术。 框架优化吞吐: TACO LLM(FP8 混精训练)训练吞吐超友商 150%;TACO DiT 推理速度提升 122%;Hyper Drive(算子优化)训练吞吐提升 120%。 推理加速: 基于自研推理引擎、共享 KVCache、P2P 模型加载技术。 机密计算: 支持 TEE 技术,确保用户模型与数据安全。 异步推理: 内部集成消息队列,支持按需扩缩容与免运维。 (总结:腾讯云异构计算平台通过底层物理网络/存储指标的绝对领先,结合中间件架构层的极致切分与加速,最终在应用端为大模型及各类高性能场景提供了高吞吐、低故障、易部署的标准化算力底座,其商业价值在降本增效的核心数据上得到了充分验证

    12110编辑于 2026-04-25
  • 2025 IDC《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》发布,腾讯云智算底座获权威认可

    HCC, #智能高性能网络IHN, #高性能应用服务HAI, #腾讯云向量数据库, #云原生调度编排TKE, #对象存储COS, #腾讯云Data Platform, #AgentRuntime, #加速套件 TACO 第二章:报告背景和目标 随着AI应用迈向规模化落地阶段,企业级智能体(Agent)正加速渗透千行百业,驱动云基础设施从单纯的算力供给向业务赋能的AI Infra演进。 一体化加速智能体(Agent)生产环境落地:随着Agent应用复杂度的提升,单一算力模式已无法满足需求。 为什么选择腾讯云 算存网数一体的高阶技术先进性:腾讯云提供软硬自研一体的高性能智算底座,集结高性能计算集群HCC、智能高性能网络IHN(3.2T RDMA高带宽)、高性能并行文件存储CFS Turbo及加速套件 TACO

    42720编辑于 2026-04-15
  • 腾讯云智能体及AI Infra行业应用概要:从痛点解决到价值落地

    提供智能体开发及AI Infra解决方案 腾讯云以“智能体开发平台+AI Infra底座”为核心,提供全栈技术支撑,覆盖模型、数据治理、安全防护、场景落地全流程。 AI Infra底座: 算存网数一体:高性能计算集群HCC(RDMA/vRDMA网络)、智能高性能网络IHN、高性能存储(COS+GooseFSx)、加速套件TACO(训练/推理/DiT加速)。 —— 得理科技联合创始人(案例隐含) 总结选择腾讯云的核心优势 全栈AI Infra能力:算存网数一体(HCC/IHN/TurboFS/TACO),支持一体、弹性扩缩容,资源利用率提升80%+(

    43120编辑于 2026-04-03
  • 来自专栏腾讯云服务器团队的专栏

    推理效能最高提升至242%——腾讯云计算加速套件 TACO Kit

    计算加速套件 TACO Kit 简介 从推荐系统、自动驾驶到聊天机器人,AI 正逐渐渗透到我们生活的每个角落。 特别的,针对 AMD EPYC CPU 后端,为了最大限度优化推理性能,腾讯云和 AMD 发团队深度合作,无缝集成了 AMD 推理加速库“ZenDNN”作为 TACO Infer 的高性能算子实现候选。 TACO Infer 旨在帮助用户充分应对上述挑战,通过跨平台统一的优化接口赋能用户,让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。 TACO Infer 强大的可扩展性设计也使得硬件厂商依照硬件特性开发的加速库,例如 ZenDNN、TensorRT 等,得以和 TACO 无缝集成,再辅以 TACO Infer 自研的代码生成技术,无论用户使用何种硬件加速实例 扫码免费试用 登录腾讯云官网了解 TACO Kit 更多信息; 登录ZenDNN官网了解如何在 AMD EPYC 处理器上使用 AMD AI 推理加速库; 欢迎扫码加入 TACO Infer 加速引擎交流群

    1.4K10编辑于 2022-08-25
  • 来自专栏自然语言处理(NLP)论文速递

    Meta宣布全新一体加速器:完全集成PyTorch 2,性能3倍提升

    在英特尔宣布其最新人工智能加速器硬件的第二天,Meta 便迅速公布了关于芯片研发的最新成果:下一代 MTIA(Meta Training and Inference Accelerator),其中 MTIA 新一代芯片的最新加速器由 8x8 个处理元件 (PE) 组成。这些 PE 显着提高了密集计算性能(比 MTIA v1 提高了 3.5 倍)和稀疏计算性能(提高了 7 倍)。 为了支持下一代 MTIA 芯片,Meta 开发了一个大型机架式系统,最多可容纳 72 个加速器。该系统由三个机箱组成,每个机箱包含 12 个板,每个板上有两个加速器。 此外,Meta 还将加速器之间、主机与加速器之间的结构升级到 PCIe Gen5,以提高系统的带宽和可扩展性。如果选择横向扩展至机架之外,还能添加一个 RDMA NIC。

    24210编辑于 2024-04-12
  • 来自专栏机器之心

    Meta宣布全新一体加速器:完全集成PyTorch 2,性能3倍提升

    在英特尔宣布其最新人工智能加速器硬件的第二天,Meta 便迅速公布了关于芯片研发的最新成果:下一代 MTIA(Meta Training and Inference Accelerator),其中 MTIA 新一代芯片的最新加速器由 8x8 个处理元件 (PE) 组成。这些 PE 显着提高了密集计算性能(比 MTIA v1 提高了 3.5 倍)和稀疏计算性能(提高了 7 倍)。 为了支持下一代 MTIA 芯片,Meta 开发了一个大型机架式系统,最多可容纳 72 个加速器。该系统由三个机箱组成,每个机箱包含 12 个板,每个板上有两个加速器。 此外,Meta 还将加速器之间、主机与加速器之间的结构升级到 PCIe Gen5,以提高系统的带宽和可扩展性。如果选择横向扩展至机架之外,还能添加一个 RDMA NIC。

    36010编辑于 2024-04-12
  • 腾讯云异构计算产品概要

    软件层面:通过高性能应用服务HAI、推理集群、TACO加速套件(实现训练速80% 提升)等,实现软硬协同优化。其实例丰富度全球领先,提供云上充沛算力,实现随取随用。 加速性能:TACO套件实现训练速80% 提升,训练吞吐超友商150%。 3. 产品优势 极致性能:通过软硬协同优化,充分释放GPU算力,突破算力瓶颈。 推理加速(推理集群):提升推理效率。 机密计算(推理集群):提供高级安全防护,保障数据安全。 异步推理(推理集群):支持多种推理模式。 4. 荣誉背书 原文未提供相关技术荣誉和奖项信息。

    5610编辑于 2026-04-25
  • 云+AI共建银行数智化未来——腾讯技术驱动的金融业务提效与场景落地

    智算资源调度低效:异构算力利用率低,训练与推理资源割裂,缺乏一体潮汐调度能力。 数据治理与自主创新压力:软件供应链安全风险、核心系统替换难度大、国产软硬件兼容复杂,需平衡性能与自主可控。 TCE一站式智算集群:提供通算智算一体化能力,搭载TACO Train训练加速、星脉IHN 3.2T高速RDMA网络、TurboFS存储,支持异构算力灵活调度与智能运维故障自愈。 ,潮汐调度实现在线推理闲时算力用于离线训练。 某头部商业银行智算平台案例:部署TCE一站式智算集群,达成一云多芯多卡适配、百余场景稳定运行、高效支撑模型,典型场景含AI知识库、智能客服、风险管理(来源:该银行案例)。 AI工程化能力:TI平台Angel推理加速业界领先(算子/Kernel优化、int4量化、多专家并行),潮汐调度支持优先级配置与服务弹性伸缩(来源:TI平台数据)。

    26220编辑于 2026-04-21
  • 来自专栏腾讯云原生团队

    GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!

    目前业内有很多分布式训练的加速技术,例如多级通信、多流通信、梯度融合、压缩通信等,TACO-Training 也引入了类似的加速技术,同时 TACO-Training 不同于业界其他方案的创新点在于自定义用户态协议栈 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎,为用户提供开箱即用的 AI 训练套件。 性能数据 下图展示了在 CVM GPU 训练集群下,各个开源模型使用 TACO training 进行分布式训练的加速效果。 部署实践 为了复现上述性能加速效果,接下来我们开始学习如何一步一步搭建 TKE Kubeflow + TACO-training 的 GPU 分布式训练集群。 接着我们展示了有 HARP 加持的 TACO-Training 引擎的加速效果: 在相同的 25G VPC 环境下,相比于业内开源方案 Horovod,TACO 可以提供20%- 200%左右的性能提升

    1.7K20发布于 2021-11-26
  • 来自专栏腾讯云服务器团队的专栏

    GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!

    TACO-Training 在云服务器和云容器环境下都可以部署,在 GPU 云服务器上的TACO-Training 训练加速部署方案已经在官网文档上线,具体可参见 GPU 云服务器上部署 AI 加速引擎 本文将为大家介绍基于腾讯云容器服务(TKE)的部署方案,让我们一起了解 TACO-Training 在云容器上的分布式训练加速方案,借助腾讯云自研网络协议栈 HARP,加速 AI 训练! 介绍 TACO-Training TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎,为用户提供开箱即用的 AI 训练套件。 性能数据 下图展示了在 CVM GPU 训练集群下,各个开源模型使用 TACO training 进行分布式训练的加速效果。 接着我们展示了有 HARP 加持的 TACO-Training 引擎的加速效果: 在相同的 25G VPC 环境下,相比于业内开源方案 Horovod,TACO 可以提供20%- 200%左右的性能提升

    1.8K20发布于 2021-11-26
  • 来自专栏腾讯云服务器团队的专栏

    腾讯云上线 TACO 加速版,推理速度狂飙80%

    腾讯云「高性能应用服务HAI」联手自研计算加速引擎「TACO-LLM」,推出DeepSeek-R1 32B TACO加速版环境! TACO-LLM:专业级推理加速引擎 腾讯云TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)作为面向大语言模型的推理加速引擎,通过充分利用计算资源的并行计算能力 实测效果认证为推理加速「黑科技」 DeepSeek-R1 32B TACO加速版环境,相比于vLLM,可在多个场景提升token吞吐能力,降低生成结果的等待时间,推理流程全面提效。 3分钟上手,上HAI开启TACO加速体验 如此加速能力,现已上线 腾讯云高性能应用服务HAI 。并且开箱即用,3分钟即可用上这款 AI 开发者的「躺平神器」,堪称双倍加速。 DeepSeek-R1 671B TACO加速满血版环境快马加鞭上线中,敬请期待!

    78110编辑于 2025-03-17
  • 高性能应用服务HAI - DeepSeek-R1 32B TACO 加速

    一、环境说明TACO-LLM(TencentCloud Accelerated Computing Optimization LLM),是腾讯云自研的一款面向大模型的推理框架,TACO-LLM默认集成在了 TencentOS Server AI中,相比其他开源框架,TACO-LLM具有更好的稳定性、安全性以及更高的性能,通过采用自研的Lookahead 加速技术以及针对DeepSeek模型的输出特征优化, 环境中已预装DeepSeek-R1:32b 加速版环境,用户可在开机后直接基于环境进行加速版调用,在不同场景下,相比vllm框架平均提速80%二、部署方式1. 创建实例选择“社区应用”-“DeepSeek-R1 32B TACO 加速版”环境进行创建,实例选择“旗舰型”2.

    34710编辑于 2025-03-10
领券