首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将S3和EBS相结合,对AWS进行成本效益分析?

如何将S3和EBS相结合,对AWS进行成本效益分析?
EN

Stack Overflow用户
提问于 2017-03-29 10:55:04
回答 1查看 60关注 0票数 1

我从我的客户端在.csv桶上接收到非常大的(5TB) S3文件。我必须处理这些文件,向它们添加列并将它们存储回去。

我可能需要以同样的方式处理这些文件,因为我增加了未来改进模型的功能数量。

显然,因为S3将数据存储为对象,所以每次进行更改时,我都必须读写5TB的数据。

我所能采取的有效和迅速处理这些数据的最佳方法是什么:

  1. 将一个5TB文件存储在S3上作为对象,每次读取该对象时,执行处理并将结果保存回S3
  2. 将5TB存储在S3上作为对象,读取对象,将其块存储到较小的对象,并将其保存回S3作为多个对象,因此今后只需处理我感兴趣的块。
  3. 从一开始就将所有东西保存在EBS上,将其挂载到EC2并进行处理。

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-29 11:31:01

首先,一个警告-- --亚马逊S3中对象的最大大小是5TB。如果要添加导致更大对象的信息,那么很可能会达到这个限制。

处理这么多数据的更明智的方法是在并行中,最好是在多个较小的文件中,而不是在单个5TB文件中。

Amazon (有效地说,是一个托管Hadoop环境)非常适合在大型数据集中执行分布式操作。它可以并行处理多个文件中的数据,并可以动态压缩/解压缩数据。这是复杂的学习,但非常有效率和能力。

如果您坚持当前的数据处理方法,我建议:

  • 如果您的应用程序可以直接从S3读取,请使用它作为源。否则,将文件复制到EBS。
  • 处理数据
  • 将输出本地存储在EBS中,最好保存在较小的文件(GBs而不是TBs)中。
  • 将文件复制到S3 (如果满足您的需要,可以将它们保存在EBS上)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43091525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档