在构建数据流管道时,它是一种有效的方法吗?它的目的是将BigQuery中的最新数据按键存储到
table
这种方法的思想取自Google项目https://github.com/GoogleCloudPlatform/DataflowTemplates,https://github.com/GoogleCloudPlatform/DataflowTemplates。
到目前为止,它在我们的测试中运行良好,这里的问题来自于这样一个事实: Google在其文档中声明:
“最近使用流( tabledata.insertall方法或存储写入API)写入表的行不能用UPDATE、DELETE或MERGE语句进行修改。”https://cloud.google.com/bigquery/docs/reference/standard-sql/data-manipulation-language#limitations。
是否有人在生产数据流管道中走了这条路,并取得了稳定的积极结果?
发布于 2021-12-02 15:56:31
经过几个小时的思考,我想我可以回答我自己的问题:因为我只流到暂存表并合并到目标表中,所以这种方法非常好。
发布于 2021-12-03 03:06:47
我昨天就这么做了,时差在15-45分钟左右。如果您有一个摄取时间列/字段,您可以使用它来限制您正在进行UPDATE的行。
https://stackoverflow.com/questions/70198500
复制相似问题