问Apache spark- bigdata
EN

Stack Overflow用户

提问于 2015-01-17 22:09:20

回答 1查看 267关注 0票数 2

假设我们有100 gb的文件。我的系统是60gb.How apache spark会处理这些数据吗？我们都知道spark基于集群独立执行分区。但是当内存减少时，我想知道spark是如何处理它的

发布于 2015-01-28 20:47:29

简而言之: Spark不需要完整的数据集一次放入内存中。但是，某些操作可能需要数据集的整个分区才能装入内存。请注意，Spark允许您控制分区的数量(以及它们的大小)。

详细信息请参阅this主题。

还值得注意的是，Java对象通常比原始数据占用更多的空间，因此您可能想看看this。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28000287

复制

相似问题

问Apache spark- bigdataEN