首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    AI Infra论文阅读之LIGHTSEQ(LLM长文本训练的Infra工作)

    介于篇幅原因,这篇文章只读一下这篇paper,把握一下核心的Infra相关的idea。这篇paper应该还没有中会议,处于openreview阶段。

    69310编辑于 2024-02-22
  • 来自专栏老张的求知思考世界

    AI Agent Infra领域的工具图谱

    无论是IT技术领域,还是AI领域,基础技术设施建设一直是很重要的一部分。 软件生态要想发展得足够庞大,需要底层硬件和基础设施的支撑。在AI领域,这个逻辑同样适用。 过去三年,大模型(LLMs)领域的建设已经有了长足的进步,目前已经进入了阶段性的能力瓶颈期;智能体从23年初步探索到现在的大规模落地应用,也许很快我们会迎来AI First应用爆发点;未来几年AI的发展方向则是向 因此我才会在前面介绍智能体基础架构的文章中断言道:Agent Infra是Agent落地的关键!因为它涵盖了Agent从开发到部署的完整生命周期。 目前在Agent Infra层面,可以大致划分为这四个赛道:Environment、Context、Tools、Agent Security。 下面是我查阅很多资料后整理的Agent Infra工具图谱,供大家参考。

    96410编辑于 2025-06-25
  • 来自专栏AI

    拥抱 AI 范式革新:如何成为 AI Infra 核心专家

    在大模型、多模态与智能体技术爆发的今天,AI Infra 正从 “支撑算力供给” 的幕后角色,走向 “定义智能生产方式” 的核心舞台。 一、AI Infra 的范式革新:从 “算力供给” 到 “智能生产”过去,AI Infra 的核心目标是 “让模型训得更快”。 智能生产平台化:AI Infra 不再是零散的工具集,而是整合了数据、训练、推理、监控的一体化平台,让 AI 应用的开发和部署像使用水电一样便捷。 二、AI Infra 核心专家的全栈技术栈要成为 AI Infra 核心专家,必须构建覆盖 “硬件 - 分布式 - 框架 - 工程化 - 架构设计” 的全栈能力。1. 行业标准:参与制定 AI Infra 标准、开源贡献、技术布道。业务赋能:理解业务场景,设计最优 AI Infra 方案,支撑智能体、多模态、世界模型等新应用。

    41110编辑于 2026-02-13
  • 来自专栏存储公众号:王知鱼

    【企业级AI infra】IBM Vela系统:AI计算的革新之路

    全文概览 随着AI模型规模的指数级增长,企业面临计算与存储的双重挑战。IBM通过Vela系统和Granite系列模型,重新定义了AI基础设施的标准。 获取AI基础设施设计原则:从硬件配置到自动化运维,构建可扩展的AI平台。 关于作者 职业生涯的经验 幻灯片描述了演讲者在20多年职业生涯中的关键阶段和经历。 AI工作负载 对 Infra 的要求 幻灯片描述了AI工作负载的不同阶段(数据准备、分布式训练、模型调优、推理)以及每个阶段所需的基础设施类型和时间要求。 ,尤其是大规模AI模型的计算集群。 所以更希望提供轻量化的软件定义能力,可以预想到的是:随着AI与业务系统的深度整合,软件定义的AI能力也将促成厚重的软件层技术栈。

    62710编辑于 2025-03-10
  • 腾讯云发布AI infra品牌“腾讯云智算”

    9月5日,在腾讯全球数字生态大会上,腾讯云正式发布AI infra品牌“腾讯云智算”。 据介绍,腾讯云智算是一个集算存网一体的高性能智算底座,整合了腾讯云高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等腾讯云优势产品,能够为AI创新输出性能领先、

    2.2K10编辑于 2024-09-05
  • 来自专栏机器之心

    大模型最难的AI Infra,用Vibe Coding搞定

    然而,当我们目光转向实际的系统,特别是 AI Infra 这种复杂系统时,Vibe Coding 就会常常会陷入「水土不服」的困境。 总结下来,主要有这三个方面的问题。 而这些问题背后的根源在于:AI Infra 到底还是个复杂系统,动辄数万行代码、成百上千个相互关联的决策点,而当前的对话式编程缺乏持久化、结构化的决策管理机制。 换句话说,Vibe 本身是模糊且不稳定的,无法支撑严肃复杂的 Infra。 不过 Vibe Coding 的发展不可逆,其广泛应用的潜力不应就此止步。 要让 Vibe Coding 真正适用于 AI Infra 开发,我们实践了文本驱动的 Vibe Coding 方法:通过设计文档将所有关键决策体系化、持久化。 AI Infra 中的资源调度系统,尤其是面向 Agentic RL,正是这样一个理想试验场。该系统是数万行代码的分布式训练系统,面临 GPU 利用率优化的复杂挑战,涉及核心调度逻辑改动。

    18510编辑于 2026-01-12
  • 来自专栏腾讯开源的专栏

    开源公告|AI-Infra-Guard(AI基础设施安全评估工具) 发布

    项目简介 AI Infra Guard(AI Infrastructure Guard) 是由混元安全团队-朱雀实验室研发的一款高效、轻量、易用的AI基础设施安全评估工具,专为发现和检测AI系统潜在安全风险而设计 安装与使用 ● 安装 下载地址: https://github.com/Tencent/AI-Infra-Guard/releases ● 使用 单个目标 . /ai-infra-guard -target [IP/域名] 多个目标 ./ai-infra-guard -target [IP/域名] -target [IP/域名] 从文件读取 . /ai-infra-guard -file target.txt AI分析 . /ai-infra-guard -target [IP/域名] -ai -token [混元token] 指纹匹配规则 AI Infra Guard 基于WEB指纹识别组件,指纹规则在data/fingerprints

    2.2K10编辑于 2025-02-05
  • 来自专栏GiantPandaCV

    AI Infra论文阅读之《在LLM训练中减少激活值内存》

    0x4.2.3 Pipline并行 GPipe->1F1B Pipline并行可以读我之前写的这篇paper解读:AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1

    1.4K10编辑于 2024-03-26
  • 来自专栏深度学习与python

    Agent规模化落地前夜,AI Infra的难题全都暴露了

    AI Infra 的能力框架、落地路径与未来趋势。 InfoQ 特别邀请 IDC 高级研究经理张犁、智诊科技产品总监罗龙生、腾讯云异构计算高级产品经理黄阳,解析 AI Infra 的六大核心能力、Agent 规模化的结构性难题、AI Infra 价值闭环衡量标准 重估 AI Infra 价值 随着 AI 应用进入规模化落地阶段,Agent 也逐步快速渗透到各个行业。 AI Infra 的风险和成本控制 明确了衡量 AI Infra 能力的宏观框架,实际落地过程中,企业还需要用可量化的方式,判断 AI Infra 在具体业务场景的价值。 AI Infra 下一阶段的竞争逻辑 随着 Agent 在行业中加速落地,AI Infra 的竞争开始从“比技术”走向“比业务价值”。

    38510编辑于 2025-11-26
  • 腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%

    腾讯混元AI Infra团队正式推出开源生产级高性能LLM推理核心算子库 HPC-Ops。 GitHub项目地址:https://github.com/Tencent/hpc-ops在大模型时代,计算效率已成为 AI 应用及发展的关键瓶颈。 现有主流算子库主要存在以下痛点:1、使用成本高:主流算子库设计复杂,核心 Kernel 封装深,在其上修改适配成本非常高,除了对代码非常熟悉的开发者,普通的AI 研究者很难在其上适配修改。 目前,HPC-Ops 已在 github 开放源码供开发者下载使用,同时腾讯混元infra团队也表示,欢迎行业内的技术实践者提交高价值 PR,参与算子边缘场景优化、教程案例打磨等精准化贡献,共同推动大模型推理技术的边界拓展

    27010编辑于 2026-02-07
  • 来自专栏vpp开发与应用

    VPP 测试框架之infra基础库测试

    该系列文章有4篇:VPP 测试框架之官方文档解读VPP 测试框架之使用示例及参数说明VPP Bond单元测试源码分析Vpp 测试框架之infra基础库测试(本文)本文已同步至:个人博客:itwakeup.com 微信公众号:vpp与dpdk研习社(vpp_dpdk_lab)1. infra单元测试在src/vppinfra/test/目录下,有许多通过REGISTER_TEST注册的单元测试,用于对vppinfra 编译 test_infra执行make build生成可执行文件test_infra1.2. 运行参数说明test_infra运行参数说明:perf:携带该参数将运行性能测试,默认为功能测试。 /build-root/build-vpp_debug-native/vpp/bin/test_infra filter toeplitzMultiarch Variant: default------ /build-root/build-vpp_debug-native/vpp/bin/test_infra perfWarming up...Multiarch Variant: default----

    36710编辑于 2025-09-14
  • 来自专栏深度学习与python

    AI Infra 工程师们如何应对大模型流水线里的“暗涌”?

    那么,Infra 工程师在日常工作中会遇到哪些真实需求与故障类型?开源 Infra 和国产卡适配训练推进过程中,又会遇到哪些难点和挑战呢? 充分利用异构硬件特性、实现跨类型资源的智能调度与混部,已成为 AI 基础设施演进的重要方向。 在 6 月 27-28 日将于北京举办的 AICon全球人工智能开发与应用大会上,我们特别设置了 【AI 基础设施与生态构建】 专题。 该专题将聚焦 AI 软硬件及生态系统的建设,讨论如何打造高效的 AI 开发与应用环境。 综合来看,充分利用异构硬件特性、实现跨类型资源的智能调度与混部,已成为 AI 基础设施演进的重要方向。 观众:尹老师选择 SGLang 而非 vLLM 的原因是什么?

    46310编辑于 2025-06-26
  • 来自专栏木鸟杂记

    Infra 面试之数据结构五:顺序组装

    参考资料 [1] 系统日知录: https://xiaobot.net/p/system-thinking [2] infra 程序员面试题目大全: https://github.com/DistSysCorp /infra-interview/tree/main/data_structures

    22310编辑于 2024-05-08
  • 来自专栏腾讯云服务器团队的专栏

    解码AI驱动云基建新范式,腾讯全球数字生态大会 Infra Agent 专场亮点抢先看!

    AI加速技术变革的背景下,AI基础设施与AI产业演进同频共振,9月17日,腾讯全球数字生态大会 Infra Agent 专场乘势而来! 本专场聚焦腾讯AI原生云产品技术新升级,为AI模型的开发、训练、推理、部署、Agent的应用提供底层技术支撑,加速AI落地。 点击小程序,腾讯云诚邀您莅临现场 一起见证:更智能、更提效、更安全的基础设施服务 Infra Agent 专场以“智能体驱动云基础设施跃进升级”为核心,成为解码下一代云基建变革的关键窗口。 左右滑动 亮点抢先看 向左滑 向左滑动 查看更多 1+重磅发布:腾讯云联合权威研究机构IDC,重磅发布产业白皮书,洞察GenAI产业趋势、解码五大行业场景下的AI infra需求与行业最佳实践; 3+ 腾讯云以前瞻的技术洞察、打造生态协作能力,加速AI落地,让infra更加智能与主动服务广大用户。 扫描图中二维码或点击阅读原文 立即预约直播 共享现场精彩

    38010编辑于 2025-09-11
  • 来自专栏用户11467648的专栏

    PyTorch On Java 体系 视频课程已发布 AI Infra3.0 【硕士研一课程】

    想学人工智能 全栈一定要Python吗, java 也可以,别再被那些 乱七八糟,群魔乱舞的玩具框架绑架了,要学真框架,造真模型,长真本事。

    3310编辑于 2026-03-11
  • 来自专栏机器之心

    Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式

    而对于真正的 AI Infra,核心则应该是驱动模型持续优化的数据闭环。 因此,Agent 想要发挥出强大的功能,必需可靠的 AI Infra!也因此,当 Agent 火爆的时候,AI Infra 的身价也随之水涨船高。 赛迪《2025 中国 AI Infra 平台市场发展研究报告》显示,在 Agent 市场急速扩大的同时,中国 AI Infra 平台市场规模预计 2025 年达 36.1 亿元,同比增长超 86%。 AI Infra 的重要程度可见一斑。 那当我们在谈论 AI Infra 的时候,我们到底在谈论什么? AI Infra 的核心在于结构层能力的构建,包括分布式计算、数据调度、模型服务、特征处理与部署编排。

    45710编辑于 2025-08-14
  • 来自专栏深度学习与python

    AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力

    前几天,百年风投机构 BVP 发布了一份云计算现状报告,副标题直接使用了这样一句话:“传统云已死,AI 云长存! (The Legacy Cloud is dead , long live AI Cloud!)” 他们承认传统云仍然有重大发展机遇,但更震惊于 AI 带来技术变革加速,现如今我们已经很难找到一家不做 AI 的云计算企业了。 AI 大模型靠的是大力出奇迹,注定了训练它的基础设施跟传统云不一样。 由于 AI 的大流行,数据中心也开始从以 CPU 计算为中心到以 GPU 计算为中心。 在 HPC 和超大规模 AI 云市场中,网络占集群成本的 20% 或更多的情况并不少见。

    1.4K10编辑于 2024-07-12
  • 腾讯云架构师技术同盟 AI Infra 讨论班 (产学研合作・腾讯赋能) 筹备与学习指南

    课程与实践阶段(启动会后)首次讲座与课程体系课程体系参考英伟达 AI Infra 培训框架、B 站及抖音平台主流 AI Infra 教学逻辑搭建,从 CUDA 编程基础、算力调度原理切入,逐步延伸至前沿模型与 AI Infra 的适配机制。 GAN、扩散模型的运行机制; 2.前沿模型与 AI Infra 层的适配需求;3. 编制算力中心技术咨询报告;2.设计医疗场景 AI Infra 解决方案2 周3 周吃透 AI Infra 核心技术,完成两大 项 目 框 架 搭建,形成产学研合作与腾讯赋能的初步方案,同盟成员与受邀人员均可共同参与方案打磨成果输出阶段 七、AI Infra 技术发展与应用前景当前,AI Infra 技术是支撑人工智能产业高质量发展的核心底层技术,其发展水平直接决定了 AI 模型的训练效率、部署成本与应用落地速度。

    59450编辑于 2025-12-17
  • 来自专栏IT运维技术圈

    一个高效、轻量、易用的AI基础设施安全评估工具

    关注波哥 简介 AI Infra Guard 是腾讯研发的高效能、轻量化、易操作的AI基础设施安全评估解决方案,专注于系统化检测AI技术栈中的潜在安全隐患。 /ai-infra-guard -ws # 执行本地环境扫描 ./ai-infra-guard -localscan # 单目标检测 . /ai-infra-guard -target [IP/Domain] # 批量任务处理 ./ai-infra-guard -file target.txt # 启用AI深度分析 . 截图 总结 在AI技术深度赋能的数字化时代,AI Infra Guard 凭借其智能检测引擎与轻量化架构,为AI基础设施构建了全栈式安全防护体系。 无论是企业级AI平台的安全加固,还是开发者的合规性验证,该工具都彰显出卓越的应用价值。 项目地址 https://github.com/Tencent/AI-Infra-Guard

    92210编辑于 2025-04-26
  • 来自专栏科技云报道

    Agent应用爆发,谁成为向上托举的力量?

    2025年,AI Agentic基础设施(Agent Infra)迎来爆发拐点。 “大脑”与“四肢”的协同进化,正在倒逼承载二者的“躯干”全面升级,Agent Infra成为技术攻坚的核心战场。 Agent企业应用 面临五大痛点 利用AI的能力将工作流程自动化,这类产品早已有之。 Agent Infra乘风而来 如今,云厂商竞相推出新一代Agent Infra技术架构。 当认知与行动完成闭环,Agent Infra的技术代差将决定企业AI创新和转型的落地速度与质量。 Agent开发范式的演进对底层基础设施提出了全新要求。 首先,是在已有Infra中寻找有AI-native需求的环节。

    48000编辑于 2025-08-09
领券