我正在做一些非常简单的数据挖掘(实际上,只是一个单词)作为我的本科生计划的研究项目。
我将使用亚马逊弹性MapReduce。
我需要上传4 4GB的.xml文件。
做这件事最好的方法是什么?
上传小的zip文件,然后在存储桶中以某种方式解压它们?或者拆分文件,上传所有小文件,然后使用所有小文件进行流式MapReduce作业?
发布于 2011-03-28 21:37:54
您可以将该xml放入一个序列文件中并对其进行bzip2,或者对其进行bzip2并在云中进行解压缩。
发布于 2011-03-28 23:17:01
如果你想上传一个大文件,S3支持分块上传。有关更多详细信息,请访问documentation page。
发布于 2020-06-13 21:49:20
如果目标是将这些数据放到EMR (Spark或Flink等)中,那么多个压缩的小文件将更好地利用加载中的一些并行性,例如,EMR Spark默认可以处理来自S3的tar/zip压缩文件。
https://stackoverflow.com/questions/5456867
复制相似问题