首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Cloud到BigQuery ETL工具

Cloud到BigQuery ETL工具
EN

Stack Overflow用户
提问于 2022-11-29 20:19:19
回答 2查看 49关注 0票数 0

我有一个具有数百个数据库的Cloud实例,每个客户都有一个。每个数据库中都有相同的表,但数据仅针对特定的客户。

我想要做的是,以各种方式进行转换,以便与所有客户一起获得一个概览表。不幸的是,我似乎找不到一个工具可以在Cloud实例所拥有的所有数据库上进行测试,执行查询,然后将数据写入BigQuery。

我真的希望Dataflow能成为解决方案,但就我尝试和在线查看的情况而言,我无法找到一种方法来实现它。由于我已经花了很多时间调查Dataflow,所以我认为最好在这里问一问。

目前我正在研究数据融合,Datastream,Apache气流。有什么建议吗?

EN

回答 2

Stack Overflow用户

发布于 2022-11-29 23:53:30

气流可以用于这类事情(从本质上说,您是在一遍又一遍地执行相同的任务,因此有一个合适的操作符和for -循环您肯定可以生成一个DAG,它具有数百个几乎相同的任务,这些任务可以导出每个数据库)。

然而,我不想问:你应该吗?

在一个实例中创建数百个数据库,而不是在每个表上创建一个customer字段的数据库,可能有一个非常好的理由。然而,如果安全性是最重要的,那么行级安全策略可以添加额外的安全元素,而不会使您陷入这种困难的境地。在customer字段上添加索引将允许您快速检索适当的子表(在插入新行时以较小的速度代价作为回报),因此性能似乎也不是这样做的理由。

如果我是你的话,那么如果我是将您的数据导入BigQuery非常简单,我就会移动天和地来切换到这个设置!

票数 0
EN

Stack Overflow用户

发布于 2022-12-02 14:00:30

为什么Dataflow不适合您的需要?您可以运行一个查询来查找表,然后根据这些结果迭代构建管道/JdbcIO源/PCollection。Beam有一个展平变换,可以加入PCollections。

您要做的是创建数据流Flex模板的一个用例(以便在Dataflow本身中创建动态DAG ),但是也可以在没有Flex模板的情况下提取。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74619847

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档