首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据仓库:谁开始从多个源提取数据到中转区域,是源还是数据仓库?

数据仓库:谁开始从多个源提取数据到中转区域,是源还是数据仓库?
EN

Stack Overflow用户
提问于 2021-04-27 04:10:50
回答 1查看 68关注 0票数 0

关于数据仓库中的ETL (特别是摘录),我有一个问题。

从这个文章中,一个临时区域主要是由于时间的原因,有些甚至不需要一个临时区域。

假设我有3台微服务服务器,每个服务器都有自己的数据库、2台操作服务器和1台数据仓库服务器。

  1. 服务器1:按计划每天提取数据
  2. 服务器2:数据需要在数据仓库中实时可用。

谁将开始提取数据?我的想法是

  1. 服务器1:数据提取由数据仓库服务器启动,直接从服务器1的数据库中提取,每天计划进行。
  2. 服务器2:无法安排时间,因此数据仓库服务器提供了供服务器2使用的API,服务器2启动数据提取,或者在每次数据可用时通过提供的API向数据仓库服务器发送数据。

但我不确定是否应该向所有操作服务器提供API并让它们决定何时向仓库发送数据?或者直接从操作数据库中提取数据是所有数据仓库服务器的工作?如果是的话,如何提取实时的呢?

EN

回答 1

Stack Overflow用户

发布于 2021-04-27 18:57:06

您提出的方法(每天ping服务器1,但几乎实时地从服务器2接收数据)是我在过去看到的。不过,您可能需要考虑的一些事情是:

  • 有时,无法将Server 2配置为自动平分API,这通常是因为它的数据库不支持触发器。如果是这样的话,那么您可能需要定期从DW中ping服务器2,就像每5分钟一次一样。
  • 通常,您每晚都会查询服务器1。尽管如此,我可以看到服务器1在准备被读取时告诉您它是多么的好。在第二种情况下,您的DW不必担心与服务器1的日程同步;如果服务器1有处理延迟或其批处理窗口运行时间较长,则当数据准备就绪时,您的DW仍然会收集其数据。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67276882

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档