我正在使用databricks spark集群(AWS),并在我的scala实验上进行测试。在使用LogisticRegressionWithLBFGS算法训练10 GB数据时,我遇到了一些问题。我遇到这个问题的代码块如下:
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
val algorithm = new LogisticRegressionWithLBFGS()
algorithm.run(training_set)首先,我遇到了很多executor lost failure和java out out memory的问题,然后我用更多的分区对training_set进行了重新分区,内存不足的问题也解决了,但仍然出现executor lost failure。
我的集群总共有72个内核和500 in的内存。有没有人能给出一些想法?
发布于 2015-07-12 18:51:13
LBFGS使用密集向量在内部存储betas (特征权重),所有内容都在内存中。因此,无论训练集中特征的稀疏性如何,特征的总数都是需要注意的。
因此,为了解决这个问题,用户应该要么增加执行器内存,要么限制训练集中的特征总数。
https://stackoverflow.com/questions/29566522
复制相似问题