目标
术语让我有点困惑:我基于Kimball的数据建模方法构建了database (而不是DW),现在不确定是否可以使用数据集市定义来命名MPP数据库层。
我的假设是,对于mid+大小的组织报告,仍然需要维度建模和星型模式,这与这篇文章中的推理相同。
问题
建筑细节

更具体地说,在我的例子中:
2-3) ADLS +数据库形成数据湖。所有ETL和星型架构构建都发生在数据湖层。所有逻辑都在这里。尽管如此,它仍然有原始层的结构化和非结构化数据,使用廉价的ADLS存储,缺乏治理,有ML,并将在未来有流。另一方面,除了raw之外,我们在所有DL区域中都有模式在写,我们有预先建模的表(在这个过程中有很多需求变化)。我叫它数据湖是对的吗?
4.)Synapse是ETL/Lake结果的一个微小的投影/模型,以加快报告的响应时间。这里的逻辑几乎为零,几乎没有聚合。只有最终模型被加载到Synapse。数据不是由业务子域分割的,我们只是在一个DATAMART模式中加载所有的数据。这是个好办法吗?
发布于 2020-09-15 09:28:50
首先,我不会太拘泥于定义,因为这些术语有很多(稍微)不同的定义。不过,在这情况下,我会对这些字眼作出以下的高层次定义:
希望这能帮上忙?
https://stackoverflow.com/questions/63897611
复制相似问题