AI 数据处理的规模化挑战 企业面临非结构化数据激增、AI 管线复杂化带来的存储瓶颈,传统方案存在数据孤岛、处理效率低下、存储成本高昂及检索困难等核心痛点,难以支撑 AI 全生命周期管理。 一体化数据平台解决方案 腾讯云存储数据平台提供覆盖数据采集、清洗、训练、推理到应用的全链路服务,通过 GooseFS(数据湖存储)、COS(对象存储)、数据万象 CI(数据处理)及 MetaInsight 实现) 数据处理复杂度与成本降低 30%(数据万象 CI 实现) 非结构化数据检索准确率提升至 95%+,亿级数据毫秒级响应(MetaInsight 实现) 单集群可管理百 EB 级数据,支持无上限存储规模与多格式数据 (COS 实现) 自动驾驶企业实现 AI 训练加速 某头部自动驾驶公司采用腾讯云 GooseFS 构建数据预处理 Pipeline,实现训练数据加速与 checkpoint 高效读写,解决了海量非结构化数据处理的性能瓶颈 技术领先性与行业认可 腾讯云存储数据平台基于创新的 Yotta 存储架构,在不牺牲性能的前提下显著降低存储成本,支持全球 21 个地区、55 个可用区、3200+ 加速节点的规模化部署,曾获 XX 奖项
破解AI全生命周期数据存储管理困局 企业AI业务(数据湖、AIGC、汽车辅助驾驶等)需覆盖数据采集、清洗、训练、推理到应用全周期,对存储基础设施的统一性、效率、成本及扩展性提出高要求。 部署一体化AI存储基础设施 腾讯云存储数据平台Data Platform提供一体化服务,覆盖AI生命周期E2E(数据采集、清洗、训练、推理、内容“智”理”),适用高性能存储场景。 核心能力包括: 统一存储空间:整合多类型数据,提供单一管理入口; Yotta存储架构技术:创新架构优化存储效率,不牺牲性能下显著降低存储成本; 灵活资源配置:按需扩展与资源优化,适配业务动态需求 ; 模块化产品矩阵:数据加速(GooseFS系列)、数据治理(数据万象CI)、数据存储(对象存储COS)、智能检索(MetaInsight)。 技术支撑:Yotta架构与模块化产品矩阵 选择腾讯云的核心在于技术确定性与产品协同性: Yotta存储架构实现存储效率与成本的最优平衡; GooseFS数据湖存储专注加速与性能突破; 数据万象
blocks|key|2175393|text||type|atomic|depth|inlineStyleRanges|entityRanges|offset|length|data|2175397|2175400|entityMap|IMAGE|mutability|IMMUTABLE|imageUrl|https://developer.qcloudimg.com/http-save/yehe-1269631/26b591d9cc02373fa34c7f8f2c5b910b.png|imageAlt|
AI工作负载使传统的存储系统达到极限,需要新的性能能力。 这种转变迫使基础设施团队从根本上重新思考他们的存储策略。 GPU 作为人工智能基础设施堆栈中最关键和最昂贵的组件的出现是这种转变的核心。 数据架构: 团队需要评估其数据如何在AI工作负载中使用,并相应地设计存储架构。 系统集成: 存储、网络和计算必须被视为一个整体,而不是单独的组件。 数据治理: 存储解决方案必须支持适当的数据治理,包括版本控制、访问控制和审计功能。 环境影响: 由于AI工作负载消耗大量能源,存储架构决策会影响数据中心的整体效率。 自动化: 为AI研究人员和开发人员提供对存储功能的访问权限。例如,通过他们首选的界面(IDE、Jupyter Notebook和AI工作台)进行配置、克隆和访问控制。
许多IT专业人士认为,私有云存储只是其当前基础设施的另一个名称,公共云存储也是同样如此,而只是在某公司的公共数据中心实施。 那些存在这些想法的供应商通常缺乏云存储基础设施技术,或者试图在技术上赶上其他市场的发展。 ? 传统的IT基础架构将数据中心分为多个功能:应用,计算,网络,存储和设施以及专业技术。 为了满足用户的要求,大多数IT专业人员错误地对其存储基础设施进行过度估计和过度配置,这会导致更高的成本,并且防止不可预测的需求超过这个基础设施的能力,因为它是无弹性的并且不容易改变。 公共云存储基础设施的优缺点 公共云基础架构是多租户和共享的。对任何给定的用户来说,它似乎是无限的,因为它们可以按需扩展其意外工作负载的资源,并在需求减少时收缩。 然而,公共云存储基础设施有几个公开的问题。 ·安全控制。公共云是相当安全的,问题是可以控制的。在高度合规方面,监管行业,如医疗,保险,金融服务和政府部门因为合规责任不能外包。
黄仁勋强调,AI 的工作负载在访问模式、时延要求和数据生命周期上都与传统数据库和存储系统截然不同,因此现有存储架构难以满足需求,存储技术本身必须经历一次根本性的重构。 这种底层架构的变革需求,正是当下 AI 基础设施面临的一大核心挑战。 现在,一家成立已过十周年的公司对这一挑战发起了冲锋。 对于这类处于商业化爆发期的头部 AI 企业而言,存储底座的稳定性直接决定了研发的连续性。 这种需求的变化也预示着基础设施职能的彻底改变。 XSKY 的战略目标,就是帮助企业的专有数据完成这一物种进化,让基础设施能够支撑起从数据准备到模型训练再到推理部署的全生命周期。 AIMesh 如何推倒阻碍 AI 效率的「三堵墙」? XSKY 将继续坚守「数据常青」的理念,通过提供开放且解耦的基础设施,支撑上层快速迭代的算力竞争。作为数据资产的守门人,XSKY 同时也是企业 AI 之路的加速器。
存储敏感数据像凭证、秘密和服务账户等敏感数据需要额外保护。 我们使用密钥管理服务在我们的研究基础设施中存储和管理敏感信息,并通过角色基于访问控制限制访问,使只有授权的工作负载和用户才能检索或修改这些信息。4. 这些措施可能包括:授权:对包含敏感模型权重的研究存储账户的访问授权需要多方批准。 未来控制的研究与开发保护日益先进的AI系统需要持续的创新和适应。我们在开发新的安全控制方面处于前沿,如我们在“重新构想先进AI的安全基础设施”博客文章中所述。 我们对研究和开发的承诺确保我们始终领先于新兴威胁,并继续增强我们的AI基础设施的安全性。加入我们在OpenAI,我们致力于不断发展和保护先进的AI。我们邀请AI和安全社区加入我们的使命。
)功能,助力企业构建全球化存储基础设施。 核心亮点:通过作为CDN二级源站显著降低延迟、卸载IDC源站压力、优化成本;提供多层级存储、全生命周期管理等能力,满足高性能存储需求。 AI场景:AI训练与推理需高效访问数据时,COS结合GooseFS实现计算节点附近数据加速访问。 A&G数据湖场景:企业需统一存储基础并平衡成本与访问性能时,COS作为统一存储底座,结合GooseFS、元数据加速器、COS加速器等提升性能。 、AI数据湖存储、电商媒体处理存储等。
传统的互联网基础设施已难以满足AI技术对高性能计算、大规模数据处理和低延迟网络的需求,从而催生了新一代AI基础设施的诞生。 新一代AI基础设施特点一、计算能力跃升新一代AI基础设施依托于高性能计算技术,广泛采用GPU、TPU等专用硬件加速深度学习和机器学习进程。 通过优化数据存储和访问机制,新一代AI基础设施能够确保数据在训练和推理过程中的高效利用。三、网络需求显著提升网络作为连接计算节点和数据资源的关键,在新一代AI基础设施中扮演着至关重要的角色。 与传统互联网基础设施相比,新一代AI基础设施在网络带宽、延迟、可靠性和冗余等方面提出了更高的要求。网络对于AI而言,不仅是重要,而且是必要的。AI大模型的训练和推理过程高度依赖分布式计算和存储。 同时,AI模型往往需要海量训练数据,这些数据量远超单个节点的存储能力。这些因素共同构成了AI发展的瓶颈。而优质的网络连接正是实现分布式训练的关键,它构成了AI大模型训练不可或缺的基础设施。
我希望借助这个机会,把自己这一段时间来思考的有关AI基础设施还有AGI再到大模型等内容,从相对抽象的概念到与大家关系密切的、具体到各个层面的部分内容串联起来。 现在存储的数据跟之前存储的数据本质上没有特别大的变化,区别是传统的存储所面临的大数据的使用场景跟并行计算的场景存在非常不同的技术诉求。 最典型的一点是存储系统必须具有非常强的通信能力,I/O吞吐量,还有延时等等技术指标在大模型或者AI的训练还有推理的场景里提出的要求会比之前大数据更高。 但是否我们可以通过基础设施的快速跟进,然后模型和应用端的持续投入,让这个泡沫被刺破时造成的负面影响降到最低。这个就是AI基础设施在其中最根本的价值,它价值的核心就是算力。 这就意味着我们在AI基础设施方面的短板有可能在一段时间之内进一步被放大。我们只有发挥自己的优势,才能在关键领域集中资源快速由点到面突破整体AI经济和基础设施的落后局面。 编辑:文婧 校对:林亦霖
Meta基础设施演进与AI时代在过去的21年里,Meta从连接美国少数大学几千人的小型社交网络,发展成为服务全球超过34亿人的多个应用和新型硬件产品。 工作负载登场(2020年)GPU的出现我们在2010年代末首次遇到AI引发的基础设施挑战,当时短视频变得非常流行。 GPU和AI加速器进入视野。与主要是加载-存储机器的CPU不同,GPU是向量和矩阵处理机器,可以执行比CPU多几个数量级的计算。 加速GPU规模和AI基础设施(2023年)我们设计了一个使用数据中心建筑所有可用电力的集群,这导致我们在2023年底构建了两个各含24k H100的集群,一个使用Infiniband,另一个使用RoCE 我们的下一个AI集群Prometheus将是一个1吉瓦的集群,横跨多个数据中心建筑。构建Prometheus是一项巨大的工程壮举,基础设施横跨单个数据中心区域中的五个或更多数据中心建筑。
云基础设施机制包括哪些主要构件?简要说明这些构件的概念。 2.简要说明云存储设备的存储等级和使用的主要存储接口。 云存储等级:指数据存储的逻辑单元,主要分为以下四个等级。 文件:数据集合分组存放在文件夹中的文件里。 主要存储接口: 网络存储接口:文件存储和块存储通常通过网络存储接口来访问。文件存储需要将独立的数据存入不同的文件,当数据发生变化时,原来的文件要被生成的新文件替换。 数据库存储接口:基于数据库存储接口的云存储设备机制除了支持基本存储操作外,通常还支持查询语言,并通过标准API或管理用户接口来实现存储管理。 根据存储结构,这种存储接口分为两种主要类型:关系数据库存储和非关系数据库存储(NoSQL)。
项目简介 AI Infra Guard(AI Infrastructure Guard) 是由混元安全团队-朱雀实验室研发的一款高效、轻量、易用的AI基础设施安全评估工具,专为发现和检测AI系统潜在安全风险而设计 功能特性 ● 高效扫描 支持 28 种 AI 框架指纹识别 涵盖 200+ 安全漏洞数据库 快速且无害发现AI基础设施的安全威胁 ● 易于使用 开箱即用,无复杂配置 指纹、漏洞YAML规则定义 灵活的匹配语法 ● 轻量级 核心组件简洁高效 二进制体积小,资源占用低 跨平台支持 适用场景 针对企业内AI基础设施系统的漏洞检测和修复,可用于AI 开发环境安全检测、巡检、运维,DevSecOps 集成等场景。 /ai-infra-guard -file target.txt AI分析 . =` 不等 ● `~=` 正则匹配 ● `&&` 与 ● `||` 或 ● `()` 括号分组 关于腾讯朱雀实验室 朱雀实验室由腾讯安全平台部于2019年成立,聚焦AI与大模型基础设施安全、大模型内生安全与大模型赋能安全等领域的前沿技术研究与业务安全保障
: GB级别的顺序写 推理和RAG过程中: TB级别的随机读 归档过程中: PB级别的随机写 典型 AI 集群的存储剖析(按存储性能分层存储) 图片 左边绿色GPU服务器集群通常只能提供8个U.2的插槽 中间采用高性能全闪存,通过是TLC, 弥补机械盘性能, 总容量比HDD少 右边采用对象存储, 存储集群或JBODS, 包含大量机械盘, 总容量占比高 AI集群中的数据移动 图片 1.数据采集阶段,原始数据按顺序写入对象存储层 RAG 还可以创建额外的 I/O 活动 5.归档流程: 模型输入和输出被捕获并写入对象存储层的磁盘 旨在优化 AI 存储效率的产品组合 QLC 提升新型 AI DC(数据中心) 构建的电源效率 每个 DGX 有关建模详细信息,请参阅附录“QLC 功率效率与 HDD” 模型训练与数据存储 AI 数据穿越存储层之旅 最近的检查点基本在SSD上 早期的检查点数据在HDDS AI数据量级和性能 检查点:提高存储容量和吞吐量 Blob 存储层一次性访问可实现高吞吐量 AI负载中的存储扩展性 总结 AI集群流程中的数据存储需要根据实际业务的量级和性能要求做分层存储, 这样成本可控且性能满足需求 AI行业也会带动存储行业发展,
Fig-2 AI训练工作流对应的存储方案定性说明。 Fig-3 图示 AI训练工作流中存储层动态交互过程。 数据转移到HDD层做长时保留 • 存储层的性能/容量,随GPUs数量及训练次数弹性扩展 AI模型训练前,要完成数据Tokenization/ Vectorization,用什么专用软件来实现? 核心要点:GPU从Blob存储层同时访问会驱动高吞吐量 Fig-6 从AI系统存储带宽需求,看HDD和SSD发展现况和机遇: • 当前系统使用SSD能满足训练和Checkpoint的性能读取(但成本较高 总结 作为运营主要AI训练资源云厂商,”巨硬“对AI应用层系统实践,应该说是富有经验的,从这篇分享中可以总结以下几点: • 和新兴存储厂商(WEKA/VAST/Infidant)等普遍拥抱闪存基础设施& (Fig-5); • HDD/SSD介质发展趋势,AI场景要兼顾容量和性能(Fig-7)。
SuperMicro:AI存储硬件方案-Fig-1 云厂商 AI存储方案 大规模 AI/GPU 集群基础设施。按可扩展单元 (SU,也称为 Pod,例如 256 个 GPU) 进行扩展。 SuperMicro:AI存储硬件方案-Fig-2 企业级AI存储方案 Pod 级别的部署(较云厂商规模、性能要求降低) 企业用例,推理与训练的比较 存储需求: • 全 NVMe 或 PB 级别的分层存储 • 并行文件系统,高性能对象存储。 SuperMicro:AI存储硬件方案-Fig-3 基础计算硬件方案 在执行 AIOps 和 MLOps 时: • GPU 密集型服务器加速 AI 训练和推理。 SuperMicro:AI存储硬件方案-Fig-5 计算+存储(性能层)+容量层 方案 所有训练数据集和模型都存储在本地 • 数据湖使用容量优化的存储。 目标解决方案(Target Solutions): • 高性能 AI SDS(软件定义存储)构建模块。 • 虚拟化和密集 VDI(虚拟桌面基础设施)。 • 高性能对象存储。 • 超融合基础设施。
然而,随着AI基础设施的兴起,大规模模型训练和推理系统的普及,这一范式正面临根本性的挑战。 下面我们就一起理解下AI基础设施中的可靠性挑战吧! 一、总体框架 如下图所示,AI基础设施的可靠性是一个贯穿硬件、系统、训练过程、模型行为直至用户结果的多层次、跨域耦合问题。 AI系统可靠性需要应对四大核心问题:慢节点、节点故障/调度问题、NCCL等通信问题以及存储IO瓶颈、可观测性不足,通过“检测—隔离—容错—优化通信”四大机制,防止局部问题演化为全局系统失效。 七、展望:AI基础设施的可靠性工程演进方向 综上所述,AI基础设施的可靠性正在从“系统稳定性问题”演进为一个贯穿计算、数据与决策全过程的系统性工程问题。 展望未来,AI基础设施的可靠性工程将呈现出几个重要发展方向。
突破AI时代存储生态瓶颈:多模态海量数据处理的现实挑战 在AI技术演进与大模型落地的过程中,企业在数据湖、AIGC、自动驾驶及高性能计算(HPC)等场景下,面临着严峻的底层基础设施考验。 部署全生命周期数据流转引擎:Data Platform一体化架构设计 针对上述痛点,腾讯云Data Platform提供了一套安全可靠、极致性能与超低成本的综合性数据管理解决方案,通过核心组件的深度协同,实现AI 数据全生命周期覆盖: 统一对象存储基座(COS): 打破数据类型壁垒,提供统一存储空间,单集群具备EB级数据管理能力,实现存储规模与数据格式的无限制扩展。 沉淀底层存储核心壁垒:Yotta架构与全球化部署的技术确定性 企业选择腾讯云Data Platform的底层逻辑,在于其不可替代的技术确定性与基础设施覆盖能力: 创新的Yotta存储架构: 突破性地应用 Yotta存储技术,在不牺牲任何系统性能的前提下,实现了存储成本的显著降低,优化整体ROI。
双方将共同打造一个“全栈AI基础设施平台”,该平台将利用Nutanix的软件栈,使其所支持的本地、云端及边缘环境能够运行Agentic AI和推理应用。目前,Nutanix仅支持Nvidia的GPU。 Nutanix CEO认为,企业级Agentic AI的采用仍处于“非常早期的阶段”。公司希望通过优化其软件栈,让这类应用能够在客户期望的任何地方运行,从而加速其普及进程。 在第二财季后半段,CPU、内存、存储及其他组件的供应紧张状况开始加剧,并超出预期,这一问题正延迟客户从硬件合作伙伴处采购服务器以运行Nutanix软件的能力。
基础设施即代码(IaC)帮助DevOps、IT运维和其他工程师在不断扩大、复杂化和多样化的动态IT环境中管理数据、应用程序和基础设施。 虽然有许多令人信服的理由支持采用IaC,但有一项创新使其更具优势:生成式人工智能(AI)。仅仅一年前,人们对于AI生成的代码的准确性存在很多怀疑。 OpenAI一直在领导产业,推出了ChatGPT等生成式AI工具,而Meta的LLAMA等其他强大的大语言模型(LLMs)也具备广泛的生成式AI能力。 代码解释 生成式AI模型可以解析和解释广泛的编程语言编写的代码,这得益于它们在数百万行代码的广泛训练。 你可以用任何东西训练GPT模型,比如政策文件、编码准则或IT基础设施大小计算器,并让聊天机器人使用这些后端模型来回答客户或内部利益相关者的查询(请注意,根据客户数量和使用情况,这些能力是有成本的)。