我在一个我们不拥有的S3桶中有可用的数据,有一个压缩文件夹,其中包含每个日期的文件。
我们使用雪花作为数据仓库。雪花接受gzip的文件,但不接收压缩文件夹。
有没有一种方法可以直接将文件直接摄取到雪花中,比将它们全部复制到我们自己的S3桶中并在那里解压缩它们更有效,然后将它们指向那个桶?数据大约是每天10 on,所以复制是非常可行的,但会带来(潜在)不必要的延迟和成本。我们也无法访问他们的IAM策略,因此不能执行类似S3同步的操作。
我很乐意自己写一些东西,或者使用像Meltano或Air字节这样的产品/平台,但是我找不到合适的解决方案。
发布于 2022-06-06 22:39:47
如何使用SnowSQL将数据加载到雪花中,并使用雪花阶段表/用户/命名阶段来分阶段保存文件?
https://docs.snowflake.com/en/user-guide/data-load-local-file-system-create-stage.html
发布于 2022-08-28 20:52:49
我也有过类似的用例。每次在我的文件夹中有一个新的压缩文件时,我都使用基于事件的触发器来运行Lambda函数。Lambda函数打开压缩的文件,gzip每个单独的文件,并将它们重新上传到不同的S3文件夹中。下面是完整的工作代码:https://betterprogramming.pub/unzip-and-gzip-incoming-s3-files-with-aws-lambda-f7bccf0099c9
https://stackoverflow.com/questions/72523648
复制相似问题