我正在将CSV从S3加载到一个雪花表,使用复制到。每次进程运行时都会截断该表(数据将持久化在后续的暂存表中)。如果副本已完成,但在加载到持久暂存表之前作业失败,则在下一次加载时将丢失记录,而“复制到”命令将忽略加载的文件。
我们的存档过程适用于超过1天的文件,所以我不能暂时切换到一个力负载,因为不相关的文件将被加载。
手动减少到丢失的文件并不理想,因为我们有100+表,这些表是按表名在S3中分区的。
有人能提出其他方法吗?
发布于 2019-11-01 20:44:24
我会考虑更改您的过程,将文件同时复制到暂存位置和存档位置,然后利用副本中的清除命令。这样,错误的文件将在下一次运行时继续运行,您仍然可以获得完整的归档文件。
https://stackoverflow.com/questions/58658487
复制相似问题