介于篇幅原因,这篇文章只读一下这篇paper,把握一下核心的Infra相关的idea。这篇paper应该还没有中会议,处于openreview阶段。
因此我才会在前面介绍智能体基础架构的文章中断言道:Agent Infra是Agent落地的关键!因为它涵盖了Agent从开发到部署的完整生命周期。 目前在Agent Infra层面,可以大致划分为这四个赛道:Environment、Context、Tools、Agent Security。 下面是我查阅很多资料后整理的Agent Infra工具图谱,供大家参考。
当对张量执行逐元素操作(如加法、减法或乘法)时,它们的形状通常需要对齐。但是,手动调整或重复张量以匹配形状可能会很繁琐且效率低下,尤其是在处理大型数据集时。PyTorch 通过一种称为**广播(broadcasting)**的机制解决了这个问题。
该系列文章有4篇:VPP 测试框架之官方文档解读VPP 测试框架之使用示例及参数说明VPP Bond单元测试源码分析Vpp 测试框架之infra基础库测试(本文)本文已同步至:个人博客:itwakeup.com 微信公众号:vpp与dpdk研习社(vpp_dpdk_lab)1. infra单元测试在src/vppinfra/test/目录下,有许多通过REGISTER_TEST注册的单元测试,用于对vppinfra 编译 test_infra执行make build生成可执行文件test_infra1.2. 运行参数说明test_infra运行参数说明:perf:携带该参数将运行性能测试,默认为功能测试。 /build-root/build-vpp_debug-native/vpp/bin/test_infra filter toeplitzMultiarch Variant: default------ /build-root/build-vpp_debug-native/vpp/bin/test_infra perfWarming up...Multiarch Variant: default----
然而,当我们目光转向实际的系统,特别是 AI Infra 这种复杂系统时,Vibe Coding 就会常常会陷入「水土不服」的困境。 总结下来,主要有这三个方面的问题。 而这些问题背后的根源在于:AI Infra 到底还是个复杂系统,动辄数万行代码、成百上千个相互关联的决策点,而当前的对话式编程缺乏持久化、结构化的决策管理机制。 换句话说,Vibe 本身是模糊且不稳定的,无法支撑严肃复杂的 Infra。 不过 Vibe Coding 的发展不可逆,其广泛应用的潜力不应就此止步。 要让 Vibe Coding 真正适用于 AI Infra 开发,我们实践了文本驱动的 Vibe Coding 方法:通过设计文档将所有关键决策体系化、持久化。 AI Infra 中的资源调度系统,尤其是面向 Agentic RL,正是这样一个理想试验场。该系统是数万行代码的分布式训练系统,面临 GPU 利用率优化的复杂挑战,涉及核心调度逻辑改动。
参考资料 [1] 系统日知录: https://xiaobot.net/p/system-thinking [2] infra 程序员面试题目大全: https://github.com/DistSysCorp /infra-interview/tree/main/data_structures
9月5日,在腾讯全球数字生态大会上,腾讯云正式发布AI infra品牌“腾讯云智算”。
在大模型、多模态与智能体技术爆发的今天,AI Infra 正从 “支撑算力供给” 的幕后角色,走向 “定义智能生产方式” 的核心舞台。 在这样的浪潮中,AI Infra 专家的价值被重新定义 —— 他们不仅是算力的管理者,更是智能系统的架构师、效率的革新者与业务的赋能者。 一、AI Infra 的范式革新:从 “算力供给” 到 “智能生产”过去,AI Infra 的核心目标是 “让模型训得更快”。 二、AI Infra 核心专家的全栈技术栈要成为 AI Infra 核心专家,必须构建覆盖 “硬件 - 分布式 - 框架 - 工程化 - 架构设计” 的全栈能力。1. 行业标准:参与制定 AI Infra 标准、开源贡献、技术布道。业务赋能:理解业务场景,设计最优 AI Infra 方案,支撑智能体、多模态、世界模型等新应用。
AI工作负载 对 Infra 的要求 幻灯片描述了AI工作负载的不同阶段(数据准备、分布式训练、模型调优、推理)以及每个阶段所需的基础设施类型和时间要求。
0x4.2.3 Pipline并行 GPipe->1F1B Pipline并行可以读我之前写的这篇paper解读:AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1
腾讯混元AI Infra团队正式推出开源生产级高性能LLM推理核心算子库 HPC-Ops。 目前,HPC-Ops 已在 github 开放源码供开发者下载使用,同时腾讯混元infra团队也表示,欢迎行业内的技术实践者提交高价值 PR,参与算子边缘场景优化、教程案例打磨等精准化贡献,共同推动大模型推理技术的边界拓展
Forescout和JFrog Security研究人员在NicheStack中发现的14个漏洞被统称为“INFRA:HALT”,允许远程代码执行、拒绝服务、信息泄漏、TCP 欺骗和DNS缓存中毒。 INFRA:NicheStack中的HALT漏洞 在过去的两年里,来自多家公司的研究人员亲自探索物联网、OT和嵌入式设备/系统中使用的各种TCP/IP堆栈的安全性,并记录了他们的发现。
InfoQ 特别邀请 IDC 高级研究经理张犁、智诊科技产品总监罗龙生、腾讯云异构计算高级产品经理黄阳,解析 AI Infra 的六大核心能力、Agent 规模化的结构性难题、AI Infra 价值闭环衡量标准 IDC 总结出了 AI Infra 应具备的六个关键模块: 异构算力调度能力:针对当前算力多元化的发展趋势,AI Infra 通过算力调度技术和平台,实现对异构算力芯片的深度适配和统一纳管,能够根据不同业务场景进行高效的算力选型 AI Infra 的风险和成本控制 明确了衡量 AI Infra 能力的宏观框架,实际落地过程中,企业还需要用可量化的方式,判断 AI Infra 在具体业务场景的价值。 他指出,企业的集中需求,正促使整个 AI Infra 行业都在朝着更灵活、更智能的方向发展。 AI Infra 下一阶段的竞争逻辑 随着 Agent 在行业中加速落地,AI Infra 的竞争开始从“比技术”走向“比业务价值”。
安装与使用 ● 安装 下载地址: https://github.com/Tencent/AI-Infra-Guard/releases ● 使用 单个目标 . /ai-infra-guard -target [IP/域名] 多个目标 ./ai-infra-guard -target [IP/域名] -target [IP/域名] 从文件读取 . /ai-infra-guard -file target.txt AI分析 . /ai-infra-guard -target [IP/域名] -ai -token [混元token] 指纹匹配规则 AI Infra Guard 基于WEB指纹识别组件,指纹规则在data/fingerprints 项目地址 Github地址:https://github.com/Tencent/AI-Infra-Guard 请给项目 一个 Star ! 欢迎提出你的 issue 和 PR!
/ 关于大模型Infra思考 LLM Infra 简介 LLM Infra(大语言模型基础设施,LLM Infrastructure)是 LLM 实践和应用的底座。 LLM AI Infra广义上包含了基础模型和基础软件栈两层,本篇报告核心关注其中和工作流相关的基础软件工具栈。 LLM Infra从业建议 在知乎看到一篇非常有意思的文章,分享给大家: 大模型Infra这些年,从黑铁时代到黄金时代再到白银时代 https://zhuanlan.zhihu.com/p/ 很多人现在抱着有超额回报期望来入行大模型Infra,在白银时代这个预期需要降低。能过踩中周期的注定是少数人,因为有分歧才有风险,有风险才有超额收益。 ——AI大模型时代的“卖铲人” 万字综述:全面梳理 FP8 训练和推理技术 大模型Infra这些年,从黑铁时代到黄金时代再到白银时代 AI投资图谱:展望Infra百亿美金公司机遇(多图) LLMs推理技术栈
__getitem__ 接受一个索引 idx,获取对应的特征和标签,将它们转换为 PyTorch 张量,并以元组形式返回。这种转换为张量的操作在 __getitem__ 中很常见。
但需要提醒大家的是大模型Infra正在从从黄金时代进入白银时代。 另一方面,Infra没有准备好。 模型变大反而对AI Infra人是新机会。那个时代AI Infra的主旋律应用还是推荐系统,NVIDIA在押宝元宇宙作为新增长点,大模型对Infra同学也是新鲜事物。 大模型Infra也深刻影响了上层算法的发展轨迹。 训练推理的需求一下子就起来了,吸引很多人才加入大模型Infra领域,大模型Infra领域迎来了一波繁荣,普通人只要学习能力强,就有机会上车,因此我称之为黄金时代。
请注意 PyTorch 如何根据输入整数判断数据类型为 torch.int64(一个 64 位整数)。
作者 | AICon 全球人工智能开发与应用大会 策划 | 罗燕珊 编辑 | 宇琪 Infra 虽然是看不见的“底座”,但它却承担着支撑整个大模型系统运行的重量。 那么,Infra 工程师在日常工作中会遇到哪些真实需求与故障类型?开源 Infra 和国产卡适配训练推进过程中,又会遇到哪些难点和挑战呢? 此外,对于“跑飞”,我理解为 loss 异常飙升,其成因更为复杂,可能源于算法本身缺陷、并行框架问题或数据错误等,排查需要 Infra 工程师与业务工程师协作,难度较大。 作为 Infra 工程师,我们也需要协助客户排查此类问题。常见原因包括 Python 使用不当、库引用错误、软件包版本冲突、环境配置问题或 CUDA 驱动故障等。 开源项目背后的挑战: 写代码之外的难题 ZOMI:两位都是在做 Infra 开源项目,你们觉得除了写代码之外,最难的是什么? 是社区运营?用户反馈?还是版本节奏管理?
编辑 | 罗燕珊、Tina 整理 | 宇琪 一个以智能体为基本运行单元的全新时代加速到来,基础设施的演进正从 AI Infra 走向 Agent Infra 乃至 Agentic Infra,成为推动智能体规模化落地的关键力量 InfoQ:今天您分享了一个非常有意思的范式 “Agentic Infra ”,它和今天我们所谈论的 Agent Infra 有什么异同? 夏立雪:我们认为二者之间是一个递进的阶段关系。 InfoQ:有人说 Agentic Infra 是个比较激进的愿景,因为 Agentic Infra 都还没完全定型,就要加入 Agent 去支持 Agent 部署,今天就谈 Agentic Infra 这正是 A2A(Agent to Agent)的核心理念,也是 Agentic Infra 的终极目标。 InfoQ:在 Agentic Infra 领域,传统的算力使用方式是否会颠覆?将会通过何种路径颠覆? 夏立雪:良好的 Agent Infra 能够有效缓解这种范式转变期导致的算力浪费。