文章/答案/技术大牛

发布

社区首页 >问答首页 >为S3上的动态分区文件夹结构生成雅典娜表

问为S3上的动态分区文件夹结构生成雅典娜表
EN

Stack Overflow用户

提问于 2021-10-26 07:55:19

回答 2查看 33关注 0票数 0

我在S3中有一个文件夹结构，看起来像这样。

root/
├── parter-1/
|   ├── config/
|   │   ├── config.json
|   │   └── feature.json
|   ├── customer-1
|   |   ├── config/
|   |   │   ├── config.json
|   |   │   └── feature.json
|   |   └── data/
|   |       ├── model-1/
|   |       │   ├── input/ 
|   |       |   |   ├── current/
|   |       |   |   |   ├── tbl1.csv
|   |       |   |   |   └── tbl2.csv
|   |       |   |   └── archive/
|   |       |   |   |   ├── aod=20211012/
|   |       |   |   |   ├── tbl1.csv
|   |       |   |   └── tbl2.csv
|   |       |   |       └── aod=20211210/
|   |       |   |           ├── tbl1.csv
|   |       |   |           └── tbl2.csv
|   |       │   └── output/
|   |       |       └──(Same as input)
|   |       ├── model-2/
|   |       │   └── (Same as model-1)
|   |       └── input.zip
|   ├── customer-2
|   .   └── (Same as customer-1)
|   .
|   | 
.   └── customer-n
.       └── (Same as customer-1)
└── partner-n
    └── (Same as partner-1)

现在，我需要在AWS中生成雅典娜表(用于tb1、tbl2)等等。具有sanme tbl1.csv的所有文件都具有相同的模式(列)，对于tbl2等文件也是如此。我需要完全忽略config文件夹、zip文件和目录中存在的任何json文件。

最终的输出表应该是这样的。

**tbl1**
col_1 | col_2 | col_3 | partner |  customer | model |

amazon-web-services

amazon-s3

amazon-athena

回答 2

Stack Overflow用户

发布于 2021-10-26 10:01:29

这是不可能的。

亚马逊雅典娜将自动包括给定location中的所有文件，包括所有子目录中的文件。

票数 0

Stack Overflow用户

发布于 2021-11-03 22:32:01

请检查以下链接以创建表

Selecting specific files for athena

Partition Athena query by S3 created date

创建一个视图，将tbl1中的合作伙伴、客户和模型显示为select ，regexp_extract("$path"，'root/(.*)/') partner，regexp_extract(....)客户，regexp_extract(....)来自tbl1的模型

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69719402

复制

相似问题

问为S3上的动态分区文件夹结构生成雅典娜表
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为S3上的动态分区文件夹结构生成雅典娜表EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为S3上的动态分区文件夹结构生成雅典娜表
EN