首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用存储桶根从S3前缀加载数据仅加载一些文件

使用存储桶根从S3前缀加载数据仅加载一些文件
EN

Stack Overflow用户
提问于 2019-10-08 20:18:44
回答 1查看 246关注 0票数 1

我在一个存储桶中有大约600个CSV文件的2M+记录,所有记录都在根级别,而不是在任何子文件夹中。所有文件都以3-6位数字的唯一ID号开头。如果我执行以下命令:

代码语言:javascript
复制
LOAD DATA FROM S3 PREFIX 's3://my-bucket/'
        IGNORE INTO TABLE `my_table`
        FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
        IGNORE 1 LINES;

只有大约500k条记录被加载到表中。但是如果我执行一系列从1到9开始的命令,那么最终我会得到加载到表中的数据的预期行数。

代码语言:javascript
复制
LOAD DATA FROM S3 PREFIX 's3://my-bucket/1'
...
LOAD DATA FROM S3 PREFIX 's3://my-bucket/2'
...
LOAD DATA FROM S3 PREFIX 's3://my-bucket/3'
...
...
LOAD DATA FROM S3 PREFIX 's3://my-bucket/9'

根据文档,似乎您不能在前缀字符串中使用通配符*。我不知所措,为什么这不是预期的行为。

EN

回答 1

Stack Overflow用户

发布于 2019-10-15 22:19:25

更新,找出问题所在。作为更新过程的一部分,文件将被覆盖/替换。如果一个文件/对象正在被写入,那么从S3加载将在该文件上停止。解决方案是在更新前加上一个时间戳,而不是一遍又一遍地写在相同的文件名上。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58286226

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档