我一直在探索data lakehouse和Delta Lake的概念。它的一些功能看起来真的很有趣。就在项目主页https://delta.io/上,有一张图表显示了Delta在“您现有的数据湖”上运行,但没有提到Spark。在其他地方,它表明德尔塔湖迪兹运行在Spark之上。所以我的问题是,它可以独立于Spark运行吗?例如,我可以在不使用Spark的架构中,使用S3存储桶来设置Delta Lake,以便以Parquet格式进行存储、模式验证等吗?
发布于 2021-04-23 02:48:45
你可能会关注这个:https://github.com/delta-io/delta-rs
它是早期的,目前是只读的,但随着项目的发展,它值得关注。
发布于 2021-04-21 00:06:43
tl;dr No
Delta Lake直到并包括0.8.0版本都与Apache Spark紧密集成,所以没有Spark就不可能拥有Delta Lake。
https://stackoverflow.com/questions/67181870
复制相似问题