我读到更多关于warehouse体系结构模式的文章,并且遵循Databricks的演示,我几乎看不到任何关于维度建模的讨论,比如在传统的数据仓库中(Kimball方法)。我知道计算和存储成本要低得多,但是没有数据建模对查询性能有更大的影响吗?在Spark3.0之后,我看到了所有很酷的特性,比如,等等,但是因为这些,维度建模已经过时了吗?如果有人用Databricks实现了维度建模,那么您的想法呢?
发布于 2021-11-17 20:45:59
这里不是个问题,但很有趣。
当然,Databricks等人正在出售他们的云解决方案--我对此没意见。
将此视频https://go.incorta.com/recording-death-of-the-star-schema考虑在内--无论是付费还是对Imhoff的真实看法:
在我现在的位置上,HDP上有数据湖( Data ),具有增量格式--以及一个维度的Server。后者是由于HDP的现场方面。 没有星型模式意味着人们需要更多的技能来查询。 如果我临时查询,我会选择湖人馆,但实际上我认为你两者都需要。这是一个类似的讨论,你需要ETL工具,如果你有火花。
发布于 2022-08-16 07:21:10
Kimball的星型模式和Data建模技术仍然适用于Lakehouse模式,并提到了一些优化,如自适应查询执行、动态分区剪枝等,再加上数据跳过、ZOrder、布鲁姆过滤器等,使得查询变得非常高效。
事实上,Databricks数据仓库专家最近发表了两篇相关的博客文章:
发布于 2021-11-16 19:50:47
在我们的用例中,我们使用PowerBI + Spark访问湖人馆,并且能够显着地减少数据量,使用星型模式返回的查询使最终用户的体验更快,并且节省了计算资源。
但是,考虑到parquet文件和分区剪枝的柱状性质(这两者都会减少每次查询的数据量),我可以想象在没有星型模式的情况下,合理的设置可以工作。
https://stackoverflow.com/questions/69981737
复制相似问题