首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间

线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间
EN

Stack Overflow用户
提问于 2017-01-26 20:15:14
回答 1查看 1.8K关注 0票数 0

我正在将数据从文件中读取到R数据中。数据格式的维数为1788228 10。由于这很大,所以当我试图转换为SparkDataFrame时,我会收到以下警告:

警告scheduler.TaskSetManager:阶段0包含一个非常大的任务(48092 KB)。建议的最大任务大小为100 KB。

当我尝试执行任何动作操作时,就像

dim(df)

它给了我下面的错误

线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间

使用python:如何解决阶段x包含一个非常大的任务(xxx KB)。建议的最大任务大小为100 KB。这样的其他帖子中,我可以理解它的发生是因为dataframe的大小非常大。但我该如何缩小尺寸呢?这篇文章还建议广播。我们怎么用R来做呢?帮助。

EN

回答 1

Stack Overflow用户

发布于 2017-01-27 03:59:03

Java内存问题是一场噩梦。确保您经常使用工作空间和rm(),在循环结束时编写它,如果可以的话,在每次迭代中清除它!

并且,试着从帧行中逐行读取数据,并将其保存到火花数据帧中。

下面是一个关于增量阅读它的教程:

逐行读取

你只能靠你自己的火花部分。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41882171

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档