首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否可以在当前数据已被摄入之后稍后在Upsolver/SQLake中加载历史数据?

是否可以在当前数据已被摄入之后稍后在Upsolver/SQLake中加载历史数据?
EN

Stack Overflow用户
提问于 2022-11-08 22:33:38
回答 1查看 37关注 0票数 0

理想情况下,先加载历史数据,然后加载当前数据,但我们已经将当前数据加载到来自Kafka的雪花中,作为Upsert输出。让我们从S3转储中说,我们还必须在以后摄入历史数据,并且这些数据将从diff源加载。我们能做到这一点吗?

EN

回答 1

Stack Overflow用户

发布于 2022-11-14 17:26:16

您肯定需要为历史数据创建新的数据源。这样,历史数据就会被吸收到Upsolver中。

下一步的设计注意事项:如果只追加输出(只需继续插入),则雪花输出可以同时使用历史数据源和当前数据源联合。您可以在创建UI输出的同时添加多个数据源,也可以编辑SQL,为两个数据源添加UNION,并且历史数据和当前数据都将进入目标表。如果历史数据是第一位的,并且在当前数据源开始接收数据之前被完全吸收,此设计也将处理Upsert用例。

但是,在这个特定的问题中,由于历史数据是晚到的,我们不能使用这种方法,因为将来到达的历史数据可能会更新和覆盖当前的最新数据。

解决方案1:--如果您可以停止当前数据源,直到历史数据完全处理为止。

output.

  • Restart
  1. 停止当前数据源
  2. 创建当前数据源上的查找表,并使用记录键
  3. 创建一个历史输出,该输出连接历史数据源并只筛选查找中不存在的历史记录,并在历史数据完全处理后将其插入目标
  4. ,停止历史数据源、查找和历史记录当前数据源

G 213

解决方案2:如果当前数据量很小,可以从一开始就重新处理

output.

  • Replay
  1. 停止当前雪花输出作业
  2. 截断雪花目标表
  3. Load(向上插入)一旦历史数据被完全处理到目标
  4. ,停止历史数据源并从

G 225开始停止当前数据雪花输出作业(在步骤1中停止)

解决方案3:

  1. 将历史数据加载到单独的历史表中,
  2. 使用雪花计算从历史表中识别应用于主表的内容,然后丢弃历史表。(这需要雪花联接来识别当前表中不存在的历史记录键,并将它们插入当前表中)

希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74367896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档