即使经过很多资源,我也不明白什么是湖房,所以我想问一问。
如果我们有Azure Gen 2存储、ADF和Azure数据库,可以将传入的CSV文件转换为Delta表,可以称为"Lakehouse“体系结构,还是称为"Delta Lake"?
或者是"SQL分析“引擎在Delta湖层之上使它成为了"Lakehouse"?
请澄清。
发布于 2021-06-18 20:46:00
在较高级别上,湖房必须包含以下属性:
Databricks是第一个Lakehouse,因为它满足上述三个属性。具体来说,如果您使用ADLS并转换所有数据(json、csv、parquet、messages等),则使用Databricks。进入Databricks中可用的Delta表。那就是湖屋的建造,但它仍然需要建造和支持。Databricks平台允许我们满足上面的第2点和第3点,Delta满足1ad 3(性能依赖于引擎和存储,这就是为什么第3点被提到两次)。
利用Databricks和访问存储在Delta中的数据是Lakehouse。通过添加Databricks SQL (形式上的SQL ),我们允许更多的用户访问和使用Lakehouse。在Databricks中,SQL用户使用与Databricks中的数据工程师相同的计算和数据,他们只是有一个他们熟悉的不同的UI。此外,Databricks SQL针对SQL和BI工作负载进行了优化,而笔记本环境更适合工程和数据科学。
作为一个有趣的阅读,你应该检查我们的湖边白纸。
https://stackoverflow.com/questions/68030073
复制相似问题