首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于雪花云数据仓库的多数据处理体系结构/建模

基于雪花云数据仓库的多数据处理体系结构/建模
EN

Stack Overflow用户
提问于 2018-07-30 14:10:31
回答 3查看 605关注 0票数 1

上下文:

假设我们有多个数据处理(Ex : HR,会计,市场营销.)它们都使用星型模式作为维度建模(Kimball方法)。

问题:

由于雪花云数据仓库架构消除了分离物理数据集市/数据库以保持性能的需要。那么,在雪花上建立多个数据图的最佳方法是什么呢?

为每个datamart创建数据库?使用多个模式创建一个数据库(EDW ),每个模式引用一个datamart?

谢谢!

EN

回答 3

Stack Overflow用户

发布于 2018-07-31 07:20:58

罗恩是对的-答案取决于以下几点:

  1. 如果存在一致的维度,那么可能需要一个数据库和模式。
  2. 如果它们是完全非集成的数据集市,我将使用单独的模式,甚至单独的数据库。它们都是雪花中的逻辑容器(而不是物理容器),具有完全基于角色的访问控制,可用于隔离用户。

所以说真的-你今天怎么做的?这对你有用吗?还是有一些你需要或想做的事情,你现在用你的物理设置是做不到的。如何使用BI工具设置安全性?它们是引用数据库名称还是只引用架构名称?如果可以的话,尽量减少对数据管道和报告的更改,这样就可以减少可能需要重构的东西(至少在第一次POC或迁移中是这样)。

需要注意的一点是,使用雪花,您可以轻松地进行跨数据库连接(即database.schema.table) --您所需要的只是选择访问,所以即使您按数据库分离集市,如果需要的话,oyu仍然可以进行跨集市报告。

希望这能有所帮助。

票数 2
EN

Stack Overflow用户

发布于 2018-07-30 23:20:59

根本不需要分离星型模式。

如果您在整个市场使用共享/一致的维度,那么分离实际上是一种反模式。

如果您的问题是简化了用户之间的隔离,那么每个集市的模式都能很好地工作。

您建议的所有方法(DB/mart、DW/schema、.)会起作用的,我只是不清楚是否需要。

票数 1
EN

Stack Overflow用户

发布于 2018-07-31 08:51:04

建立单独的数据集市的目标是更多地涉及治理、保持数据的组织以及预期在何处找到数据(即“销售数据集市”中的销售交易),而与性能问题的关系则较小。

使用单个数据库作为数据仓库的优点是,用于分析的所有数据都将存储在一个地方,从而使其更易于访问和查找。在这种情况下,您可以使用模式实现(逻辑上)独立的数据集市。您还可以在数据库中使用模式,使每个数据集市的开发数据与生产数据分离。

雪花不同于传统的关系数据库;考虑到它的技术架构,它在不同的数据库/模式之间连接大型表没有问题,因此您当然可以在不同的数据库中构建不同的数据集市,并将它们的事实或维度与其他雪花数据库/数据集市连接起来。

在您的具体情况下,如果您有大量的数据集市(例如,10个或更多),并且使用雪花进行数据仓库之外的工作,我认为最好的方法是在其自己的数据库中实现每个数据集市,并使用模式来管理每个模式中的prod/dev数据。这将有助于保持数据的有序性,而不是很快地将数百个表(每个数据集市及其dev/prod版本)放在一个数据库中,这将不是一个很好的开发或维护体验。

但是,从性能的角度来看,并没有什么明显的区别。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51595916

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档