我正在编写一个调度的联邦查询,以便每天加载我的BiqQuery表。BigQuery表加载策略是重写。我的源是一个云SQL数据库(mysql实例)。
我想知道从性能和成本优化的角度来看,从长远来看,加载我的BigQuery表的正确方法是什么?我是应该每天使用源数据覆盖我的BigQuery表,还是应该使用连接在我的联邦查询本身中构建一个逻辑,以便仅检测源中的新添加内容,然后在每天计划的运行期间将它们添加到我的BigQuery表中?
发布于 2020-05-13 20:27:17
你的第二个想法是要走的路。
我使用连接在我的联邦查询本身中构建了一个逻辑,以检测源代码中的新添加内容,然后将它们添加到我的BigQuery表中
BigQuery需要读/写的数据量越少,成本就越低。
这是一种通常称为增量的方法。
https://stackoverflow.com/questions/61774520
复制相似问题