希望如此,这个问题符合堆栈溢出标准。
我很清楚数据仓库的概念。但是,我对实际构建数据仓库感到困惑,因为我只是在编写报告工具。
假设我的Oracle中有一个数据库,考虑20个表。据我所知,DW大楼的建设步骤是“做ETL”。
但我很困惑,
1)以表格结构的方式定义维度和事实&它们之间的关系。
2)如何选择或实现我想要的模式,比如事实星座?
我应该如何确定这是维度,这是事实?
4)我应该如何使用代孕密钥?
简单地说,我想用现有的数据在数据库中构建一个数据仓库。我该怎么做?
欢迎您的回答,想法,参考资料。
发布于 2013-12-12 04:44:09
首先,照伊恩说的去做。
有许多不同的接触数据仓库。这里有一个人的观点,它不一定是最好的或正确的,但我有几年的工作经验,在我想象是类似于你的情况(有人说,‘嘿,让我们建立一个数据仓库的报告和其他东西)
来了
1]维度表-查找具有随时间事实表可能发生变化的信息的表-时间值/状态中的点(通常不按维数)。通常包含一堆可聚合的数据字段和返回到维度表的链接。
产品,人员,组织是尺寸表的候选。销售,Org图表关系,员工计数是事实表的候选
事实将包含返回维度表的FK链接。维度表不应该有对其他表的任何直接FK引用(如果有必要,可以使用桥接表,但是如果您尝试将源系统重构为其本身的一个维度副本,那么您将有一个糟糕的时间。)
从你将要报告的内容开始,然后从那里开始工作。通常答案是“我们需要报告一切”,但最终你会发现。(我不太清楚你在问什么)
3)高层次:考虑excel中的交叉选项卡图。如果字段是列或行标题,则可能是一个维度。如果是图表中的一个数字,那很可能是事实。
4]在你的仓库里总是使用你自己的代孕钥匙。(代理密钥使您能够在维度表中拥有唯一的主密钥)将它们对每个人保密,它们只适用于您的仓库/数据集市。opinionEven为您的事实表提供了它们自己的代理键,即使它们可以使用复合PK/意见。
再次,我强烈要求你们花更多的时间调查数据仓库的概念。对数据仓库的目标以及如何/如果将数据仓库与数据集市分离,提出一个强有力的内部概念。
考虑花费精力修复您的源系统,以便它们能够产生您所追求的输出。
https://stackoverflow.com/questions/19653259
复制相似问题