今天,我正在寻求您的帮助,在过去的几天里,bzip2压缩出现了一个问题。我们需要将输出的文本文件压缩为bzip2格式。
问题是我们只能从5GB的未压缩到3.2GB的bzip2压缩。看到其他项目将他们的5 GB文件压缩到只有400 Mb,我想知道我是否做错了什么。
这是我的代码:
iDf
.repartition(iNbPartition)
.write
.option("compression","bzip2")
.mode(SaveMode.Overwrite)
.text(iOutputPath)我还将导入该编解码器:
import org.apache.hadoop.io.compress.BZip2Codec此外,这并不是在我的火花-提交任何吐露,因为我已经尝试了很多没有运气。
会很感激你的帮助。
发布于 2022-06-16 15:16:48
谢谢你们的帮助,解决方案是在算法bzip本身。实际上,考虑到我的数据是以随机方式匿名的,这个算法不再有效,这是非常随机的。
再次感谢你
https://stackoverflow.com/questions/72116213
复制相似问题