首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >寻找在接近实时ETL工具等方面维护数据仓库的想法。

寻找在接近实时ETL工具等方面维护数据仓库的想法。
EN

Database Administration用户
提问于 2014-04-17 23:43:37
回答 4查看 2.3K关注 0票数 4

我已经完成了许多传统的数据仓库实现,在这些实现中,负载是以面向批处理的方式完成的,即数据每晚刷新,最多每隔几个小时刷新一次。我现在面临着创建一个系统的挑战,在这个系统中,数据仓库中的数据需要保持在接近实时的水平(几分钟的延迟是可以的,但仅此而已)。我已经做了大量的阅读,似乎接近实时已成为DW在过去几年的趋势。但是,我很难找到有关可用工具的具体示例和具体信息,这些工具支持这种“滴流式”ETL。正确的工具似乎能够读取数据库事务日志并将这些更改发送到数据仓库,同时允许在运行中进行一些数据转换。是否有人有实时数据仓库的经验,并能推荐一个好的工具,或指出这方面的良好阅读。

下面是几个相关链接:http://proc.conisar.org/2012/pdf/2214.pdf http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=37&cad=rja&uact=8&ved=0CGQQFjAGOB4&url=http%3A%2F%2Fwww.researchgate.net%2Fpublication%2F226219087_近处_真实_时间_ETL%2Ffile%2F79e4150b23b3aca5aa.pdf&ei=G_dOU8HXI4iy2wW954GoDw&usg=AFQjCNHZVJuxfmuqwjrdi10oxM8v51WcNA&sig2=6OI-xoIz9b0mH_hzITBVrQ

谢谢!

我在一家微软商店工作,所以源数据库在上。我确实对SSIS有一个很好的处理,但它似乎不适合这里。

EN

回答 4

Database Administration用户

发布于 2014-04-18 11:34:28

如果您拥有Server的Enterprise,那么我建议您使用变更数据捕获(,CDC)进行此操作。这比设置触发器监视更改的数据要容易得多,也要干净得多。此外,它读取事务日志中的更改,然后将这些更改记录在系统表中。

您可以使用SSIS作为ETL。如果您已经安装了2012年,有一些非常方便的CDC组件可用。但是,您还可以使用诸如OLE DB源之类的常规组件,并查询SQL Server在启用CDC时安装的CDC内置函数。

我已经使用CDC和SSIS构建了一个集成,在我们从一个系统过渡到另一个系统时,它保持了两个系统的同步,并且它每10分钟运行一次,没有问题。关键是保持您的SSIS包尽可能轻。这意味着将查找从完整的缓存和其他类似的东西中移开。理想情况下,作业运行的频率越高,每次运行传输的数据就越少。

如果您担心在源系统上添加污点,需要考虑的另一件事是查看一个可用性组,只读取异步模式下的源代码副本。这将允许您从OLTP数据库卸载读取数据。不过,这确实需要企业版和2012年或更高版本。

票数 1
EN

Database Administration用户

发布于 2014-04-28 14:16:59

我最近不得不构建类似的东西,我开始使用AlwaysOn可用性组在我需要的数据库上创建只读副本。如果Enterprise不是一个选项,那么日志传送可以完成这项工作,但是它将使您的数据仓库更加落后,您的ETL将需要能够处理日志发送副本的恢复。

从这些副本中,我有一个定制的ETL进程,它大量使用每5分钟运行一次的MERGE语句作为SQL作业,将数据新数据注入数据仓库。

根据必须处理的数据量,您可以以更小的间隔运行此操作。

如果您的记录有日期时间戳,那么唯一能够在几个月和几年内减缓这一过程的是事务的大幅增加。如果事务增加的话,所有的ETL都会在某种程度上受到这样的影响,但是有许多改进可以扩展部署。

票数 0
EN

Database Administration用户

发布于 2014-07-09 17:24:35

根据卷的不同,如果您使用一个负担得起的高速工具来进行数据集成,比如IRI CoSort (它可以使用批量提取/加载的平面文件数据或ODBC连接),那么无论如何,您将接近实时(具有它的速度,并且没有in转换)。为了更接近于每篇文章的实时,您可以通过CDC以数据为中心(而不是以日志为中心)的方式“调节流”,使用相同的工具在某一日期之后选择行、连接以查找插入/更新/删除、执行多种类型的映射以及同时提供表、文件和报告目标。这是一种4GL和Eclipse的方法,比SSIS快,比Informatica等人便宜。

票数 0
EN
页面原文内容由Database Administration提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://dba.stackexchange.com/questions/63455

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档