我尝试过这样做,但没有达到要求的结果-我有多个CSV文件在s3存储桶的文件夹中,但当它为它创建多个表时,雅典娜返回零结果,所以我为每个文件创建了一个不同的文件夹,然后它工作得很好。问题-但是如果将来要添加更多的文件夹,那么我必须去爬虫,并且必须为每个新添加的文件夹添加一个新的位置路径,所以有没有什么方法可以自动完成,或者其他一些方法。我使用胶水爬虫和s3桶雅典娜查询多个CSV文件运行。
发布于 2020-03-22 18:16:51
通常,一个表需要它的所有文件都在一个目录中,而不是其他文件都在该目录中。
但是,有一种机制使得创建只包含特定文件的表成为可能。你可以在这个答案的第二部分中了解更多:Partition Athena query by S3 created date (在水平线后面向下滚动一点)。您还可以在S3 Inventory文档中找到一个示例:https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html
https://stackoverflow.com/questions/60768742
复制相似问题