首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >转换文件后加载DynamoDB数据。有像GCP数据流/Apache束这样的AWS服务吗?

转换文件后加载DynamoDB数据。有像GCP数据流/Apache束这样的AWS服务吗?
EN

Stack Overflow用户
提问于 2020-12-05 08:01:00
回答 2查看 207关注 0票数 0

新来的AWS。我有一个requirement来创建一个每日批处理管道

  1. 阅读6-10 1GB+ CSV文件。(每个文件都是来自SQL的表的摘录。)
  2. 用某种逻辑转换每个文件,并将所有文件连接起来,以便每个id创建一个项。
  3. 在一个带有插入逻辑的DynamoDB表中加载这个连接的数据。

当前的方法是:我们有一个可用于此类任务的EC2。因此,我正在编写python代码,以(1)读取所有CSV,(2)转换为一个去角色化的JSON文件,(3)使用boto3导入Dynamodb

我的问题是,我担心我的数据是否是“大数据”。用一个Python脚本处理10 Is数据可以吗?如果文件大小变成10倍,我会面临缩放问题吗?我过去只使用GCP,在这个场景中,我会使用DataFlow来完成任务。那么在AWS术语中是否有类似的呢?如果有人能提供一些想法,那就太好了。耽误您时间,实在对不起。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-12-07 15:31:43

在AWS中,一个更合适的类似于数据流的方法是运动数据分析,它是支持Apache的Java

您可以看到在他们的服务上运行一个Apache束管道的示例

Apache Beam能够写信给DynamoDB

祝好运!

票数 0
EN

Stack Overflow用户

发布于 2020-12-06 20:16:03

相当于Google的AWS是AWS胶。文档不清楚,但胶水确实会写到DynamoDB上。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65154959

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档