我的s3文件结构是:
├── bucket
│ ├── customer_1
│ │ ├── year=2016
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── sometype-2017-11-01.parquet
│ | | | ├── sometype-2017-11-02.parquet
│ | | | ├── ...
│ │ │ ├── month=12
│ │ | │ ├── sometype-2017-12-01.parquet
│ | | | ├── sometype-2017-12-02.parquet
│ | | | ├── ...
│ │ ├── year=2018
│ │ │ ├── month=01
│ │ | │ ├── sometype-2018-01-01.parquet
│ | | | ├── sometype-2018-01-02.parquet
│ | | | ├── ...
│ ├── customer_2
│ │ ├── year=2017
│ │ │ ├── month=11
│ │ | │ ├── moretype-2017-11-01.parquet
│ | | | ├── moretype-2017-11-02.parquet
│ | | | ├── ...
│ │ ├── year=...我想用AWS Glue crawler为customer_1和customer_2创建单独的表。如果我提到path s3://bucket/customer_1和s3://bucket/customer_2,它是有效的。
我试过s3://bucket/customer_*和s3://bucket/*,它们都不能工作,也不能在胶水目录中创建表格
发布于 2018-04-19 22:39:30
Glue的自然倾向是将类似的模式(当指向父文件夹时)添加到匹配率超过70%的同一个表中(假设在您的示例中,Cust1和Cust2具有相同的模式)。
发布于 2021-10-06 14:43:23
最近我自己也遇到了这个问题。亚马逊网络服务胶水爬行器有这个选项Grouping behaviour for S3 data。如果未选中该复选框,它将尝试组合模式。通过选中该复选框,您可以确保创建多个单独的数据库。
表的级别应该是从存储桶的根开始的深度,从那里您想要分隔表。
在你的例子中,深度应该是2。
更多here

https://stackoverflow.com/questions/49920199
复制相似问题