假设我们有100 gb的文件。我的系统是60gb.How apache spark会处理这些数据吗?我们都知道spark基于集群独立执行分区。但是当内存减少时,我想知道spark是如何处理它的
发布于 2015-01-28 20:47:29
简而言之: Spark不需要完整的数据集一次放入内存中。但是,某些操作可能需要数据集的整个分区才能装入内存。请注意,Spark允许您控制分区的数量(以及它们的大小)。
详细信息请参阅this主题。
还值得注意的是,Java对象通常比原始数据占用更多的空间,因此您可能想看看this。
此外,我还建议您查看Apache Spark : Memory management and Graceful degradation
https://stackoverflow.com/questions/28000287
复制相似问题