首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌数据:每天加载多个小表

谷歌数据:每天加载多个小表
EN

Stack Overflow用户
提问于 2020-07-01 16:21:42
回答 2查看 392关注 0票数 1

我想每天从SQL Server加载大约100个小表(最少5条记录,最多10000条记录)到谷歌BigQuery。我们已经创建了100个数据流水线,每个源表一个流水线。当我们启动一条流水线时,大约需要7分钟来执行。当然,它会启动DataProc,连接到SQL server,并将数据导入Google BigQuery。当我们必须按顺序运行时,需要700分钟吗?当我们尝试在流水线中并行运行时,我们受到网络范围的限制,可能是256/3.1。1流水线启动3个虚拟机的1个主机2个从机。我们试过了,但当我们并行启动10个以上的管道时,性能会下降。问题。这是正确的方法吗?

EN

回答 2

Stack Overflow用户

发布于 2020-07-01 23:40:41

当多个管道同时运行时,有多个Dataproc群集在后台运行,具有更多的虚拟机,并且需要更多的磁盘。有一些插件可以帮助你处理多个源表。正确的插件使用应该是CDAP/Google plugin称为Multiple Table Plugins,因为它允许多个源表。

在Data Fusion studio中,您可以在Hub -> Plugins中找到它。

要查看可用插件的完整列表,请访问official documentation

票数 1
EN

Stack Overflow用户

发布于 2020-07-02 22:12:30

多个Data Fusion管道可以使用同一个预配置的Dataproc群集。您需要为Data Fusion实例创建远程Hadoop Provisioner计算配置文件。

此功能仅在企业版中可用。

How setup compute profile for the Data Fusion instance

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62672611

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档