我想每天从SQL Server加载大约100个小表(最少5条记录,最多10000条记录)到谷歌BigQuery。我们已经创建了100个数据流水线,每个源表一个流水线。当我们启动一条流水线时,大约需要7分钟来执行。当然,它会启动DataProc,连接到SQL server,并将数据导入Google BigQuery。当我们必须按顺序运行时,需要700分钟吗?当我们尝试在流水线中并行运行时,我们受到网络范围的限制,可能是256/3.1。1流水线启动3个虚拟机的1个主机2个从机。我们试过了,但当我们并行启动10个以上的管道时,性能会下降。问题。这是正确的方法吗?
发布于 2020-07-01 23:40:41
当多个管道同时运行时,有多个Dataproc群集在后台运行,具有更多的虚拟机,并且需要更多的磁盘。有一些插件可以帮助你处理多个源表。正确的插件使用应该是CDAP/Google plugin称为Multiple Table Plugins,因为它允许多个源表。
在Data Fusion studio中,您可以在Hub -> Plugins中找到它。
要查看可用插件的完整列表,请访问official documentation。
发布于 2020-07-02 22:12:30
多个Data Fusion管道可以使用同一个预配置的Dataproc群集。您需要为Data Fusion实例创建远程Hadoop Provisioner计算配置文件。
此功能仅在企业版中可用。
https://stackoverflow.com/questions/62672611
复制相似问题