我运行一个具有以下规范的集群(每个任务管理器):-16个cpu线程- 16 GB内存-16个插槽。我有两个任务管理器,当我们运行一个图形算法(例如连接的组件)时,程序会失败,出现以下错误:
线程"main“org.apache.flink.runtime.client.JobExecutionException: java.lang.RuntimeException中的异常:内存耗尽。压实失败。org.apache.flink.runtime.minicluster.MiniCluster.executeJobBlocking(MiniCluster.java:625):numPartitions: 32 minPartition: 29 maxPartition: 30段溢出段数:105个bucketSize: 234个总体内存: 42598400个分区内存: 30539776条消息: null at org.apache.flink.api.java.LocalEnvironment.execute(LocalEnvironment.java:91) at org.apache.flink.api.java.LocalEnvironment.execute(LocalEnvironment.java:91) at org.apache.flink.api.java.ExecutionEnvironment.execute(ExecutionEnvironment.java816)在org.apache.flink.api.java.DataSet.collect(DataSet.java:413) at org.apache.flink.api.java.DataSet.print(DataSet.java:1652) at com.asha.adw.ga.gpe.main.Main.main(Main.java:207)引起的: java.lang.RuntimeException:内存耗尽。压实失败。org.apache.flink.runtime.operators.hash.CompactingHashTable.insertRecordIntoPartition(CompactingHashTable.java:457):numPartitions: 32 minPartition: 29 maxPartition: 30个溢出段数:105个bucketSize: 234个总体内存: 42598400个分区内存: 30539776消息: null at org.apache.flink.runtime.operators.hash.CompactingHashTable.buildTableWithUniqueKey(CompactingHashTable.java:316) at org.apache.flink.runtime.operators.hash.CompactingHashTable.buildTableWithUniqueKey(CompactingHashTable.java:316) at org.apache.flink.runtime.iterative.task.IterationHeadTask.readInitialSolutionSet(IterationHeadTask.java:228) at org.apache.flink.runtime.iterative.task.IterationHeadTask.run(IterationHeadTask.java:291) at org.apache.flink.runtime.operators.BatchTask.invoke(BatchTask.java:368) at org.apache.flink.runtime.taskmanager.Task.run(Task.java:703) at java.lang.Thread.run(Thread.java:748)
我监视了堆,它的利用率约为40%。我也出发-堆真,但没有这样的运气。当主内存增加64 GB时,它将成功运行。任何帮助都将不胜感激。
发布于 2018-09-23 15:06:53
异常表示Flink托管内存用完。您可以通过taskmanager.memory.fraction控制用作托管内存的总可用内存的部分。默认值为0.7,这意味着可用堆空间(由taskmanager.heap.mb确定)的0.7用作托管内存。因此,您可以尝试增加这个值。~0.3的修正函数主要用于用户定义的函数。
我只是遇到了同样的问题,并在这里找到了理由: Gelly ran out of memory
我能够在我的项目中验证响应。
希望答案是不要迟到!
https://stackoverflow.com/questions/51517551
复制相似问题