我有一个具有数百个数据库的Cloud实例,每个客户都有一个。每个数据库中都有相同的表,但数据仅针对特定的客户。
我想要做的是,以各种方式进行转换,以便与所有客户一起获得一个概览表。不幸的是,我似乎找不到一个工具可以在Cloud实例所拥有的所有数据库上进行测试,执行查询,然后将数据写入BigQuery。
我真的希望Dataflow能成为解决方案,但就我尝试和在线查看的情况而言,我无法找到一种方法来实现它。由于我已经花了很多时间调查Dataflow,所以我认为最好在这里问一问。
目前我正在研究数据融合,Datastream,Apache气流。有什么建议吗?
发布于 2022-11-29 23:53:30
气流可以用于这类事情(从本质上说,您是在一遍又一遍地执行相同的任务,因此有一个合适的操作符和for -循环您肯定可以生成一个DAG,它具有数百个几乎相同的任务,这些任务可以导出每个数据库)。
然而,我不想问:你应该吗?
在一个实例中创建数百个数据库,而不是在每个表上创建一个customer字段的数据库,可能有一个非常好的理由。然而,如果安全性是最重要的,那么行级安全策略可以添加额外的安全元素,而不会使您陷入这种困难的境地。在customer字段上添加索引将允许您快速检索适当的子表(在插入新行时以较小的速度代价作为回报),因此性能似乎也不是这样做的理由。
如果我是你的话,那么如果我是将您的数据导入BigQuery非常简单,我就会移动天和地来切换到这个设置!
https://stackoverflow.com/questions/74619847
复制相似问题