我正在将数据从文件中读取到R数据中。数据格式的维数为1788228 10。由于这很大,所以当我试图转换为SparkDataFrame时,我会收到以下警告:
警告scheduler.TaskSetManager:阶段0包含一个非常大的任务(48092 KB)。建议的最大任务大小为100 KB。
当我尝试执行任何动作操作时,就像
dim(df)
它给了我下面的错误
线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间
从使用python:如何解决阶段x包含一个非常大的任务(xxx KB)。建议的最大任务大小为100 KB。这样的其他帖子中,我可以理解它的发生是因为dataframe的大小非常大。但我该如何缩小尺寸呢?这篇文章还建议广播。我们怎么用R来做呢?帮助。
发布于 2017-01-27 03:59:03
Java内存问题是一场噩梦。确保您经常使用工作空间和rm(),在循环结束时编写它,如果可以的话,在每次迭代中清除它!
并且,试着从帧行中逐行读取数据,并将其保存到火花数据帧中。
下面是一个关于增量阅读它的教程:
你只能靠你自己的火花部分。
https://stackoverflow.com/questions/41882171
复制相似问题