首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >S3中用于Mongo到Parquet文件的AWS胶

S3中用于Mongo到Parquet文件的AWS胶
EN

Stack Overflow用户
提问于 2020-10-28 21:55:12
回答 1查看 1.1K关注 0票数 3

我们可以使用AWS胶进行以下操作吗?

  1. 从MongoDB中提取数据
  2. 转换为Parquet文件并将数据存储在S3中
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-29 02:44:08

是的,这可以在Glue ETL作业中使用"connectionType": "mongodb" as Source完成,语法请参考

另外,有下面的示例,它从mongodb读取数据,然后可以以拼花文件格式写入S3。

代码语言:javascript
复制
mongo_uri = "mongodb://<mongo-instanced-ip-address>:27017"


read_mongo_options = {
    "uri": mongo_uri,
    "database": "test",
    "collection": "coll",
    "username": "username",
    "password": "pwd",
    "partitioner": "MongoSamplePartitioner",
    "partitionerOptions.partitionSizeMB": "10",
    "partitionerOptions.partitionKey": "_id"}

dynamic_frame = glueContext.create_dynamic_frame.from_options(connection_type="mongodb",
                                                              connection_options=read_mongo_options)    

一旦您拥有了数据,那么在执行您想要执行的任何转换之后,使用下面的语句将数据写回s3:

代码语言:javascript
复制
glueContext.write_dynamic_frame.from_options(frame = dynamic_frame,
          connection_type = "s3",
          connection_options = {"path": "s3://glue-parquet/output-dir"},
          format = "parquet")
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64581877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档