首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >上传4 4GB文件到Amazon-S3

上传4 4GB文件到Amazon-S3
EN

Stack Overflow用户
提问于 2011-03-28 17:15:03
回答 3查看 702关注 0票数 3

我正在做一些非常简单的数据挖掘(实际上,只是一个单词)作为我的本科生计划的研究项目。

我将使用亚马逊弹性MapReduce。

我需要上传4 4GB的.xml文件。

做这件事最好的方法是什么?

上传小的zip文件,然后在存储桶中以某种方式解压它们?或者拆分文件,上传所有小文件,然后使用所有小文件进行流式MapReduce作业?

EN

回答 3

Stack Overflow用户

发布于 2011-03-28 21:37:54

您可以将该xml放入一个序列文件中并对其进行bzip2,或者对其进行bzip2并在云中进行解压缩。

票数 0
EN

Stack Overflow用户

发布于 2011-03-28 23:17:01

如果你想上传一个大文件,S3支持分块上传。有关更多详细信息,请访问documentation page

票数 0
EN

Stack Overflow用户

发布于 2020-06-13 21:49:20

如果目标是将这些数据放到EMR (Spark或Flink等)中,那么多个压缩的小文件将更好地利用加载中的一些并行性,例如,EMR Spark默认可以处理来自S3的tar/zip压缩文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5456867

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档