文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将S3和EBS相结合，对AWS进行成本效益分析？

问如何将S3和EBS相结合，对AWS进行成本效益分析？
EN

Stack Overflow用户

提问于 2017-03-29 10:55:04

回答 1查看 60关注 0票数 1

我从我的客户端在.csv桶上接收到非常大的(5TB) S3文件。我必须处理这些文件，向它们添加列并将它们存储回去。

我可能需要以同样的方式处理这些文件，因为我增加了未来改进模型的功能数量。

显然，因为S3将数据存储为对象，所以每次进行更改时，我都必须读写5TB的数据。

我所能采取的有效和迅速处理这些数据的最佳方法是什么：

将一个5TB文件存储在S3上作为对象，每次读取该对象时，执行处理并将结果保存回S3
将5TB存储在S3上作为对象，读取对象，将其块存储到较小的对象，并将其保存回S3作为多个对象，因此今后只需处理我感兴趣的块。
从一开始就将所有东西保存在EBS上，将其挂载到EC2并进行处理。

谢谢

amazon-web-services

amazon-s3

amazon-ec2

amazon-ebs

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-03-29 11:31:01

首先，一个警告-- --亚马逊S3中对象的最大大小是5TB。如果要添加导致更大对象的信息，那么很可能会达到这个限制。

处理这么多数据的更明智的方法是在并行中，最好是在多个较小的文件中，而不是在单个5TB文件中。

Amazon (有效地说，是一个托管Hadoop环境)非常适合在大型数据集中执行分布式操作。它可以并行处理多个文件中的数据，并可以动态压缩/解压缩数据。这是复杂的学习，但非常有效率和能力。

如果您坚持当前的数据处理方法，我建议：

如果您的应用程序可以直接从S3读取，请使用它作为源。否则，将文件复制到EBS。
处理数据
将输出本地存储在EBS中，最好保存在较小的文件(GBs而不是TBs)中。
将文件复制到S3 (如果满足您的需要，可以将它们保存在EBS上)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43091525

复制

相似问题

问如何将S3和EBS相结合，对AWS进行成本效益分析？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将S3和EBS相结合，对AWS进行成本效益分析？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将S3和EBS相结合，对AWS进行成本效益分析？
EN