首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用AWS Glue从S3导入JSON数据?

如何使用AWS Glue从S3导入JSON数据?
EN

Stack Overflow用户
提问于 2019-03-20 22:01:21
回答 2查看 6.5K关注 0票数 4

我在亚马逊网络服务S3中有一大堆数据是以JSON格式存储的。它看起来是这样的:

代码语言:javascript
复制
s3://my-bucket/store-1/20190101/sales.json
s3://my-bucket/store-1/20190102/sales.json
s3://my-bucket/store-1/20190103/sales.json
s3://my-bucket/store-1/20190104/sales.json
...
s3://my-bucket/store-2/20190101/sales.json
s3://my-bucket/store-2/20190102/sales.json
s3://my-bucket/store-2/20190103/sales.json
s3://my-bucket/store-2/20190104/sales.json
...

它们都是相同的模式。我想把所有的JSON数据放到一个数据库表中。我找不到一个好的教程来解释如何设置它。

理想情况下,我还可以在一些列上执行小的“规范化”转换。

我认为胶水是正确的选择,但我对其他选择持开放态度!

EN

回答 2

Stack Overflow用户

发布于 2019-03-21 19:38:21

如果您需要使用Glue处理数据,并且不需要在Glue Catalog中注册一个表,那么就不需要运行Glue Crawler。您可以设置一个作业并使用getSourceWithFormat(),同时将recurse选项设置为true,并将paths指向根文件夹(在本例中为["s3://my-bucket/"]["s3://my-bucket/store-1", "s3://my-bucket/store-2", ...])。在作业中,您还可以应用任何所需的transformations,然后将结果写入另一个S3 bucket, relational DB or a Glue Catalog

票数 3
EN

Stack Overflow用户

发布于 2019-03-21 00:26:42

是的,胶水是一个很好的工具!

使用爬虫程序在glue data目录中创建表(请记住,在创建爬虫程序时,在S3数据的分组行为下设置Create a single schema for each S3 path )阅读有关它的更多信息here

然后您可以使用relationalize来扁平化您的json结构,请阅读有关该here的更多信息

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55262557

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档