团队 B:使用 Dremio 和 Iceberg 进行分析 另一方面,Team B 专注于临时分析、BI 和报告,利用 Dremio 强大的计算引擎和 Apache Iceberg 表的可靠性。 鉴于他们使用 Dremio 作为分析和报告的计算引擎,这在传统上会构成重大障碍,因为 Dremio 本身不支持 Hudi 表。 如果要使用本地 Spark 和 Dremio 环境来试用此用例,请按照此存储库中的说明创建本地湖仓一体环境。 为此分析师可以使用 Dremio 中的“分析方式”按钮,使用这个新的组合数据集在 Tableau 中构建 BI 报表。 XTable 提供的灵活性使 Dremio 能够读取和执行 Tesco 数据集的分析,而与原生 Iceberg 格式没有任何区别。
其中数据虚拟化通常需要一个引擎支持读取多源的数据,且统一访问逻辑;业界解决改场景的引擎有Spark、Presto、Dremio等,本文接下来主要描述Dremio。 架构原理图片Dremio的部署架构描述如下:Coordinator 节点: Dremio 集群的控制中心,负责处理查询请求、协调任务分配、维护元数据等任务。 Dremio的架构可以描述如下:数据源:Dremio可以连接多种数据源,包括结构化和半结构化数据源。 图片使用场景以下是 Dremio 如何帮助业务的一些示例:更快的查询:Dremio 的主要优势之一是它处理查询的速度。 Dremio:Dremio是一个开源的数据管理平台,允许用户直接在各种数据源上运行SQL查询。Dremio使用Apache Arrow作为其本地数据格式,使其比传统的查询引擎更快、更高效地处理数据。
可以在 MinIO 上运行其基于 OTF 的数据仓库的两个 MinIO 合作伙伴是 Dremio 和 Starburst。 Dremio Sonar(数据仓库处理引擎) Dremio Arctic(数据仓库目录) 开放数据湖仓 | Starburst(目录和处理引擎) 3. 下面是一个总结这些工具的表格: 技术领域 工具 数据湖 MinIO, AWS, GCP, Azure 基于 OTF 的数据仓库 Dremio Dremio Sonar Dremio Arctic
另外两个优秀的分别是 Dremio数据湖表格式比较[50],和 Hudi、Iceberg 和 Delta Lake:LakeFS 比较的数据湖表格式[51]。 可以参考教程:关于使用 Dremio 构建开放数据 Lakehouse[68];使用Delta Lake 表格格式将数据加载到 Databricks Lakehouse 并运行简单分析[69]。 /](https://www.dremio.com/subsurface/comparison-of-data-lake-table-formats-iceberg-hudi-and-delta-lake : [https://www.dremio.com/blog/announcing-dml-support-for-apache-iceberg/](https://www.dremio.com/blog connector-type=Sources) [68] 使用 Dremio 构建开放数据 Lakehouse: [https://airbyte.com/tutorials/build-an-open-data-lakehouse-with-dremio
Iceberg已成为主流查询引擎(Spark、Trino、Flink)和数据平台(Snowflake、Dremio、Starburst、AWS、Google Cloud)中的一等公民,确保了广泛的兼容性并避免了供应商锁定 参考资料 Apache Iceberg: The Definitive Guide - Dremio, accessed on July 31, 2025, https://www.dremio.com Features & Benefits - Dremio, accessed on July 31, 2025, https://www.dremio.com/resources/guides/apache-iceberg , accessed on July 31, 2025, https://www.dremio.com/blog/migration-guide-for-apache-iceberg-lakehouses - Dremio, accessed on July 31, 2025, https://www.dremio.com/blog/apache-iceberg-v3/ Apache Iceberg™ v3
Snowflake推出Polaris Catalog,为企业和Iceberg社区提供一种全新的选择,包括Apache Iceberg 与 Amazon Web Services (AWS)、Confluent、Dremio 实现了 Iceberg 的开放 REST API,目前支持的引擎包含Apache Doris、Apache Flink、Apache Spark、PyIceberg、StarRocks、Trino和Dremio
而且业界盯着Iceberg猛操作的公司也不少啊,比如Dremio这个公司明显就是盯上了Iceberg,正等着Databricks炒起LakeHouse的概念,自己用Iceberg跟上来呢。 而旁边的Iceberg阵营天天敲锣打鼓说Databricks并非是真正的开源开放,Dremio做这个事情不仅仅毫无负担,而且乐此不疲。
hudi.apache.org/docs/next/docker_demo 文档 https://hudi.apache.org/docs/next/overview 其他 基于 Hudi、Iceberg、XTable 和 Dremio 的高亮重点: https://blog.datumagic.com/p/apache-hudi-from-zero-to-one-1010 [9] 基于 Hudi、Iceberg、XTable 和 Dremio 的湖仓分析架构: https://www.onehouse.ai/blog/dremio-lakehouse-analytics-with-hudi-and-iceberg-using-xtable
参考:dremio https://www.dremio.com/
这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。 据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。
,可以安装在 kibana 中,快速、高效、便捷的查看elasticsearch 中 indices 相关信息 地址:https://gitee.com/newegg/indices_view 20、dremio 支持sql转DSL, 支持elasticsearch、mysql、oracle、mongo、csv等多种格式可视化处理; 支持ES多表的Join操作 地址:https://www.dremio.com/
我们可以通过GET _siren/connector/datasource来查看输入规范: { "Dremio" : { "driverClassName" : "com.dremio.jdbc.Driver ", "defaultURL" : "jdbc:dremio:direct={{host}}:{{port}}{{databasename}}", "defaultPort" : 31010 a sample connection string, see the Dremio JDBC documentation for further information
这些格式旨在实现最大兼容性,因此您可以在各种工具中使用它们,包括 Dremio、Apache Spark 或 Presto 等 SQL 引擎。 Clickhouse、Dremio 和 Trino 是很好的例子,它们允许您查询来自多个来源的数据,而无需迁移数据。
在 3 月 1 日的 Subsurface 活动中,数据湖/湖屋播放器 Dremio 宣布了对 Iceberg 表格式支持的多项增强。 其中包括使用新支持的 SQL 命令 COPY INTO 将数据复制到 Iceberg 表中的能力;支持将多个文件合并为一个文件,使用 Dremio Sonar 中的新 OPTIMIZE 命令(现在也将联合更多数据源 这就是当今分析领域正在发生的事情,来自 Alation、Databricks、Dremio、Informatica、Rockset、SAP、Talend 和 TigerGraph 的所有新闻都证实了这一点
默克尔树结构, 简单看了下,IPFS用到了merkle DAG默克尔树结构,部分用到有向图无循环拓扑排序,这个很巧,我最近刚好用拓扑排序解解决了工作中的一个实际问题:如何不使用entreprise版本实现Dremio 的环境备份,用过Dremio的朋友肯定知道:Dremio付费功能 具体详情以后会再记录下,但是简化问题就是,我们从preprod上线到prod的时候,需要从数据源,pds,vds,reflection依次生成和
Apache Hive Apache Impala Apache Kylin Apache Pinot Apache Spark SQL BigQuery ClickHouse CockroachDB Dremio
同样的规则适用于 Iceberg 上的 Dremio,或支持将 Iceberg 作为数据库外部表的 Snowflake。 3 元数据管理 在元数据领域发生了很多事情! 遗憾的是,关于 Dremio 的 Nessie 项目的使用情况,很难找到公开数据。有趣的是,它还提供了一个名为 Arctic 的免费服务。这可能是为了与 Tabular 竞争而做出的战略决定。 它还包含像 Databricks lakehouse、Dremio 或 Apache Pinot 这样的湖仓。所有这些工具都有自己支持的数据格式,为的是使查询引擎提供更好的性能。
不过别怕,网易爸爸在,Snowflake爸爸在,Dremio爸爸也在。只要这些爸爸们都愿意给Iceberg站台,加上网易认为的Iceberg有1-2年的先发优势,红红火火恍恍惚惚,前途是光明的。
它的核心思想就是在时间轴上跟踪表的所有变化: 快照表示表数据文件的一个完整集合 每次更新操作会生成一个新的快照 目前已知在用的Iceberg的大厂: 国外:Netflix、Apple、Linkined、Adobe、Dremio
注:Dremio是上述数据架构的一个参考实现。文中部分图片来自Dremio。