文章/答案/技术大牛

发布

社区首页 >问答首页 >亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格

问亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格
EN

Stack Overflow用户

提问于 2018-04-19 19:40:35

回答 2查看 1.3K关注 0票数 2

我的s3文件结构是：

├── bucket
│   ├── customer_1
│   │   ├── year=2016
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── sometype-2017-11-01.parquet
│   |   |   |   ├── sometype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   │   ├── month=12
│   │   |   │   ├── sometype-2017-12-01.parquet
│   |   |   |   ├── sometype-2017-12-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=2018
│   │   │   ├── month=01
│   │   |   │   ├── sometype-2018-01-01.parquet
│   |   |   |   ├── sometype-2018-01-02.parquet
│   |   |   |   ├── ...
│   ├── customer_2
│   │   ├── year=2017
│   │   │   ├── month=11
│   │   |   │   ├── moretype-2017-11-01.parquet
│   |   |   |   ├── moretype-2017-11-02.parquet
│   |   |   |   ├── ...
│   │   ├── year=...

我想用AWS Glue crawler为customer_1和customer_2创建单独的表。如果我提到path s3://bucket/customer_1和s3://bucket/customer_2，它是有效的。

我试过s3://bucket/customer_*和s3://bucket/*，它们都不能工作，也不能在胶水目录中创建表格

amazon-web-services

amazon-s3

aws-glue

回答 2

Stack Overflow用户

发布于 2018-04-19 22:39:30

Glue的自然倾向是将类似的模式(当指向父文件夹时)添加到匹配率超过70%的同一个表中(假设在您的示例中，Cust1和Cust2具有相同的模式)。

票数 1

Stack Overflow用户

发布于 2021-10-06 14:43:23

最近我自己也遇到了这个问题。亚马逊网络服务胶水爬行器有这个选项Grouping behaviour for S3 data。如果未选中该复选框，它将尝试组合模式。通过选中该复选框，您可以确保创建多个单独的数据库。

表的级别应该是从存储桶的根开始的深度，从那里您想要分隔表。

在你的例子中，深度应该是2。

更多here

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49920199

复制

相似问题

问亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问亚马逊网络服务胶水爬虫:在s3中想要单独的文件夹表格
EN