文章/答案/技术大牛

发布

社区首页 >问答首页 >上传4 4GB文件到Amazon-S3

问上传4 4GB文件到Amazon-S3
EN

Stack Overflow用户

提问于 2011-03-28 17:15:03

回答 3查看 702关注 0票数 3

我正在做一些非常简单的数据挖掘(实际上，只是一个单词)作为我的本科生计划的研究项目。

我将使用亚马逊弹性MapReduce。

我需要上传4 4GB的.xml文件。

做这件事最好的方法是什么？

上传小的zip文件，然后在存储桶中以某种方式解压它们？或者拆分文件，上传所有小文件，然后使用所有小文件进行流式MapReduce作业？

amazon-s3

amazon-ec2

hadoop

mapreduce

xml

回答 3

Stack Overflow用户

发布于 2011-03-28 21:37:54

您可以将该xml放入一个序列文件中并对其进行bzip2，或者对其进行bzip2并在云中进行解压缩。

票数 0

Stack Overflow用户

发布于 2011-03-28 23:17:01

如果你想上传一个大文件，S3支持分块上传。有关更多详细信息，请访问documentation page。

票数 0

Stack Overflow用户

发布于 2020-06-13 21:49:20

如果目标是将这些数据放到EMR (Spark或Flink等)中，那么多个压缩的小文件将更好地利用加载中的一些并行性，例如，EMR Spark默认可以处理来自S3的tar/zip压缩文件。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5456867

复制

相似问题

问上传4 4GB文件到Amazon-S3
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问上传4 4GB文件到Amazon-S3EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问上传4 4GB文件到Amazon-S3
EN