首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格

亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格
EN

Stack Overflow用户
提问于 2018-04-19 19:40:35
回答 2查看 1.3K关注 0票数 2

我的s3文件结构是:

代码语言:javascript
复制
├── bucket
│   ├── customer_1
│   │   ├── year=2016
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── sometype-2017-11-01.parquet
│   |   |   |   ├── sometype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   │   ├── month=12
│   │   |   │   ├── sometype-2017-12-01.parquet
│   |   |   |   ├── sometype-2017-12-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=2018
│   │   │   ├── month=01
│   │   |   │   ├── sometype-2018-01-01.parquet
│   |   |   |   ├── sometype-2018-01-02.parquet
│   |   |   |   ├── ...
│   ├── customer_2
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── moretype-2017-11-01.parquet
│   |   |   |   ├── moretype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=...

我想用AWS Glue crawler为customer_1和customer_2创建单独的表。如果我提到path s3://bucket/customer_1s3://bucket/customer_2,它是有效的。

我试过s3://bucket/customer_*s3://bucket/*,它们都不能工作,也不能在胶水目录中创建表格

EN

回答 2

Stack Overflow用户

发布于 2018-04-19 22:39:30

Glue的自然倾向是将类似的模式(当指向父文件夹时)添加到匹配率超过70%的同一个表中(假设在您的示例中,Cust1和Cust2具有相同的模式)。

票数 1
EN

Stack Overflow用户

发布于 2021-10-06 14:43:23

最近我自己也遇到了这个问题。亚马逊网络服务胶水爬行器有这个选项Grouping behaviour for S3 data。如果未选中该复选框,它将尝试组合模式。通过选中该复选框,您可以确保创建多个单独的数据库。

表的级别应该是从存储桶的根开始的深度,从那里您想要分隔表。

在你的例子中,深度应该是2。

更多here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49920199

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档