当在Spark中使用时,最优化的拼图文件压缩逻辑是什么?另外,在使用每种压缩类型压缩后,1 1gb拼图文件的大约大小是多少?
发布于 2016-11-16 03:10:30
Refer here for Size Difference between all the compress & uncompress
插入它。
发布于 2016-11-19 04:13:18
这取决于你有什么类型的数据;文本通常压缩得很好,随机时间戳或浮点值就不那么好了。
看看最新的Apache Big Data会议上的this presentation,特别是幻灯片15-16,其中显示了测试数据集上每列的压缩结果。
剩下的记者。是关于实木地板内部结构受压的理论与实践。
发布于 2022-01-21 05:05:55
在我的例子中,压缩似乎增加了文件的大小。因此,它实质上使文件变得更大且不可读。如果不能完全理解并在小文件上使用拼图,那么它真的很糟糕。因此,如果可以的话,我建议您切换到avaro文件格式。
https://stackoverflow.com/questions/37082504
复制相似问题