我从我的客户端在.csv桶上接收到非常大的(5TB) S3文件。我必须处理这些文件,向它们添加列并将它们存储回去。
我可能需要以同样的方式处理这些文件,因为我增加了未来改进模型的功能数量。
显然,因为S3将数据存储为对象,所以每次进行更改时,我都必须读写5TB的数据。
我所能采取的有效和迅速处理这些数据的最佳方法是什么:
谢谢
发布于 2017-03-29 11:31:01
首先,一个警告-- --亚马逊S3中对象的最大大小是5TB。如果要添加导致更大对象的信息,那么很可能会达到这个限制。
处理这么多数据的更明智的方法是在并行中,最好是在多个较小的文件中,而不是在单个5TB文件中。
Amazon (有效地说,是一个托管Hadoop环境)非常适合在大型数据集中执行分布式操作。它可以并行处理多个文件中的数据,并可以动态压缩/解压缩数据。这是复杂的学习,但非常有效率和能力。
如果您坚持当前的数据处理方法,我建议:
https://stackoverflow.com/questions/43091525
复制相似问题