首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >元数据管理决定AI扩展规模

元数据管理决定AI扩展规模

原创
作者头像
用户11764306
发布2026-04-25 12:20:43
发布2026-04-25 12:20:43
360
举报

元数据管理走向AI规模挑战的中心

元数据管理已经成为区分AI系统能否成功扩展的实际分界线。

随着各机构将AI从实验推向持续生产,限制因素不再是模型本身,而是对庞大杂乱数据资产的可见性。根据某技术咨询与服务公司(专注于高性能计算、AI基础设施和大数据)首席技术官兼创始人的说法,调查结果和来自某机构的现场经验表明,如果没有可用的元数据,运营扩展带来的将是成本和复杂性的增加,而非价值的提升。

“AI本身关乎的就是规模。情况是这样的,”该首席技术官解释道。“有人想到一个主意,他们有一些数据,然后构建一个模型。而你能收集到最有价值的数据实际上来自你的客户。规模扩展成为一个真正的挑战……任何成功的机构都将不得不面对这一点。”

他在数据平台峰会上的独家直播中讨论了元数据如何成为在日益增长的混合数据环境中扩展AI的基础。

为什么元数据管理现在决定了AI的规模

随着AI工作负载成倍增加,各机构发现仅仅存储更多数据并不能转化为更好的结果。无可见性的增长会带来成本、低效和风险,尤其是当团队无法轻松确定存在哪些数据、数据存放在哪里或如何被复用时。该首席技术官解释说,元数据管理正成为连接组织,使基础设施、数据工程和AI团队能够在共享上下文中工作,而不是各自为政的假设。

“关于你能访问的数据量,我认为如今有些机构不得不丢弃数据,仅仅是因为他们不仅负担不起存储费用,也负担不起处理所有这些数据的费用,”他说。“仅仅积累数据本身并没有帮助;你必须处理它。”

数据质量使问题更加复杂,因为关联性是与上下文相关的,而非绝对的。对一个模型有益的数据可能会降低另一个模型的性能,这使得“好数据”的静态定义在大规模下不可靠。他补充说,如果没有捕获使用情况、来源和意图的元数据,团队就只能猜测哪些数据资产真正贡献了价值,从而拖慢迭代并增加浪费。

“没有神奇的方法能搞清楚这一点,”他说。“这真正意味着,假设我正在构建一个识别猫和狗图片的模型,而有人给了我大象和长颈鹿的图片。这些可能是识别长颈鹿和大象的非常好的数据,但对我来说,这不是数据质量。”

为什么在混合环境中元数据比格式更重要

向最佳架构和开放格式的推进进一步提升了元数据的地位。随着企业混合使用工具、云和数据存储,互操作性变得不再关乎物理访问,而更关乎共享理解。该首席技术官表示,开放格式减少了摩擦,但元数据才是使这些格式能在不同环境和团队间可用的关键。

“我们有客户可能花费40%的时间仅仅是将数据从A格式转换为B格式,”他说。“这听起来很简单,但如果你有PB级的数据,你必须读取这些数据,就必须重新处理它。”

混合环境加剧了对元数据驱动控制的需求。训练和推理日益发生在不同的地方,推理常常被推送到由某机构等平台支持的公共云或边缘环境。在这种模式下,元数据成为将数据创建、处理和随时间复用各环节联系起来的唯一一致层。

“当谈论存储和数据平台时,我看到两样东西,”该首席技术官说。“一是元数据,即它是什么、在哪里以及围绕它的各种信息。然后你还有实际的、存储东西的比特和字节。我认为在2026年,会有更多的关注点落在元数据和元数据管理上。我认为这确实很关键。”

以下是完整的视频采访,属于某媒体对数据平台峰会报道的一部分。

图片: 某媒体FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 元数据管理走向AI规模挑战的中心
    • 为什么元数据管理现在决定了AI的规模
    • 为什么在混合环境中元数据比格式更重要
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档