首页
学习
活动
专区
圈层
工具
发布

Snowflake以Iceberg V3支持及治理可移植性扩展开放数据战略

Snowflake正通过一系列互操作性增强举措,持续深化其开放数据架构战略,旨在减少数据移动、简化治理流程,并优化AI系统访问企业数据的方式。

本次发布的核心是Snowflake所定义的"数据自主权"理念,即组织能够跨多个平台访问、治理和分析数据,而不受专有系统的束缚。该公司指出,现有架构迫使企业在平台之间频繁迁移数据,由此引发操作复杂性提升、安全风险加剧、成本增加等问题,同时也制约了AI工作负载的效果。

"当团队无法在数据所在位置直接对其进行处理时,就不得不移动数据。"Snowflake在今日发布的一篇博客文章中表示,碎片化的数据管道和治理模型会因数据缺乏一致性和规范管理,进而削弱AI计划的成效。

随着AI的加速落地,企业统一数据环境的压力不断增大,Snowflake对互操作性的重视正是这一趋势的体现。该公司认为,重复的数据管道、不一致的治理机制和孤立的语义体系,会对数据架构和AI投入形成双重"税负"。

"真正的数据自主权不仅仅是一种表格格式,更意味着无论数据存储在何处,都能够使用任意引擎对其进行读取、写入和治理。"该博客文章写道。

Iceberg V3支持

本次发布的核心内容是对Apache Iceberg版本3开放表格式的扩展支持,相关功能即将推出。Iceberg已逐渐成为跨多引擎管理大规模分析数据集的行业标准,Snowflake将自身的实现方案定位为比竞争产品更具生产就绪性。

Iceberg V3引入了多项新特性:通过"Variant"数据类型支持半结构化数据;支持地理空间数据类型;针对变更数据捕获提供行级血缘追踪;通过删除向量改进删除操作;以及纳秒级别的时间戳精度。

Snowflake表示,这些增强功能将同时适用于Snowflake托管表和外部Iceberg目录,从而实现跨环境的"可移植"数据体验。

Snowflake产品管理总监James Rowland-Jones表示,此次更新标志着从基础互操作性向生产级能力的跨越。

"此次的新进展,是将互操作性从基础层面延伸至数据、治理和语义层面更为完整的生产就绪能力,这意味着客户可以开始在开放的互操作数据之上运行更复杂的真实工作负载,而不仅仅是进行实验性探索。"Rowland-Jones在书面评论中表示。

更灵活的治理机制

Snowflake还将互操作性的边界从数据格式延伸至治理和业务逻辑层面——而这两个领域历来与各平台紧密耦合。该公司正积极推广Apache Polaris,这是一个两年前由Snowflake开发并开源的数据目录,旨在实现治理策略跨系统的可移植性。

Snowflake认为,尽管Iceberg规范化了数据的存储方式,但并未解决访问控制、数据血缘和语义上下文的管理问题。Polaris正是为了填补这一空白而生——通过让策略随数据一同流转,而非固定绑定在特定引擎上。

为实现这一可移植性,Snowflake表示正在推进多项机制,包括策略交换标准、治理联邦以及读取限制应用程序编程接口。这些改进旨在允许一个系统共享预先评估的访问规则,并由另一系统执行,无需复制或重新处理数据。

Rowland-Jones表示,这一方案解决了长期以来受治理数据共享过程中的效率痛点。

"目前,将受细粒度访问控制保护的数据安全共享给外部引擎的唯一'可靠'方式,是通过API对中间结果进行实体化处理。这个过程不仅操作效率低下、成本高昂,而且往往难以预测。Apache Polaris正在打破这一困境。"他说道。

本次发布的另一个组成部分是pg_lake,这是去年11月发布的一个开源PostgreSQL扩展,旨在桥接事务型与分析型系统。它使PostgreSQL数据库能够直接查询Parquet和CSV等数据湖格式,并将数据写入Iceberg表,无需经过提取、转换和加载流程。

Snowflake表示,消除事务型与分析型系统之间的ETL管道,可以降低延迟和运营开销,同时简化整体架构。企业无需为不同工作负载维护独立系统,而是可以在共享数据层上统一运营。

"pg_lake的目标是通过去除复杂管道的依赖,来简化整体架构。"Rowland-Jones说道。

统一的语义标准

Snowflake还在积极布局新兴标准,以改善AI系统对数据的理解与解释能力。相关举措包括:用于跨系统追踪数据流转的OpenLineage,以及旨在标准化指标、维度等业务定义的Open Semantic Interchange规范。

Snowflake指出,语义不一致会迫使AI模型反复从原始数据中推断含义,进而推高计算成本并降低准确性。通过实现语义上下文的可移植性,企业可以提升模型性能并减少冗余处理。

Rowland-Jones坦承,Open Semantic Interchange目前仍处于早期阶段,但行业参与的积极态势表明市场需求旺盛。

"该规范的首个版本现已在Apache 2许可下发布,并获得超过35家行业合作伙伴联盟的背书支持。当模型能够获取一致的定义时,其输出结果将更加准确,所需的返工也会大幅减少。"他表示。

Snowflake正逐步突破其专有技术的边界,将上述努力定位为向开放、社区驱动型数据架构更大转型的组成部分。该公司表示,其工程师在过去两年间已向开源项目贡献了超过9000次提交,并积极参与推动Iceberg未来版本的能力规划,包括计划中的第4版增强功能。

预计新版本将涵盖元数据性能改进、列级更新支持以及扩展的索引选项,全面提升流式处理、机器学习和搜索工作负载的性能表现。

Snowflake的战略将开放标准定位为差异化竞争优势,同时持续在这些标准之上提供托管服务。该公司表示,其专有的Horizon目录集成了Polaris,可在保持与外部系统兼容性的同时,提供集中统一的治理能力。

Q&A

Q1:Snowflake的"数据自主权"具体是什么意思?

A:Snowflake将"数据自主权"定义为企业能够跨多个平台自由访问、治理和分析数据,且不受任何专有系统的束缚。其核心理念是:无论数据存储在何处,企业都应能够使用任意引擎对其进行读取、写入和治理操作,同时避免因强制数据迁移带来的安全风险、运营复杂性和高昂成本。

Q2:Apache Iceberg V3相比之前的版本有哪些新特性?

A:Iceberg V3引入了多项重要新特性:通过"Variant"数据类型支持半结构化数据;新增地理空间数据类型支持;提供面向变更数据捕获的行级血缘追踪;通过删除向量优化删除操作的执行效率;以及支持纳秒级时间戳精度。这些功能均可在Snowflake托管表和外部Iceberg目录中使用,适用于更复杂的生产环境工作负载。

Q3:Apache Polaris解决了什么问题?

A:Apache Polaris是一个由Snowflake开发并开源的数据目录,主要解决数据治理策略跨平台可移植性的问题。Iceberg虽然规范了数据存储方式,但未能处理访问控制、数据血缘和语义上下文的跨系统管理。Polaris通过策略交换标准、治理联邦等机制,让治理规则能够随数据一同流转,无需复制或重新处理数据,从而解决受控数据共享中长期存在的效率瓶颈。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpJHN0QL0dxt_Yhu_OKfoRZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券