文章/答案/技术大牛

发布

社区首页 >问答首页 >当使用火花中的大量列操作时，StackOverflowError

问当使用火花中的大量列操作时，StackOverflowError
EN

Stack Overflow用户

提问于 2018-04-06 10:44:57

回答 1查看 4.4K关注 0票数 6

我有一个宽的dataframe (130000行x8700列)，当我试图对所有列进行求和时，我会得到以下错误：

线程"main“中的异常( scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59) at scala.collection.generic.Growable$$anonfun$$plus$plus$eq$1.apply(Growable.scala:59) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59) at scala.collection.mutable.ListBuffer )scala.collection.mutable.ListBuffer.$plus$plus$eq(ListBuffer.scala:45) at scala.collection.generic.GenericCompanion.apply(GenericCompanion.scala:49) at org.apache.spark.sql.catalyst.expressions.BinaryExpression.children(Expression.scala:400) at org.apache.spark.sql.catalyst.trees.TreeNode.containsChild$lzycompute(TreeNode.scala:88) .

这是我的Scala代码：

  val df = spark.read
    .option("header", "false")
    .option("delimiter", "\t")
    .option("inferSchema", "true")
    .csv("D:\\Documents\\Trabajo\\Fábregas\\matrizLuna\\matrizRelativa")


  val arrayList = df.drop("cups").columns
  var colsList = List[Column]()
  arrayList.foreach { c => colsList :+= col(c) }

  val df_suma = df.withColumn("consumo_total", colsList.reduce(_ + _))

如果我对几个列做同样的操作，它可以正常工作，但是当我尝试使用大量列时，我总是会遇到相同的错误。

有人能建议我怎么做吗？列的数量有限制吗？

谢谢！

stack-overflow

scala

apache-spark

mapreduce

spark-dataframe

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-04-06 12:57:57

您可以使用不同的还原方法来生成深度O(log(n))的平衡二叉树，而不是深度O(n)的退化线性BinaryExpression链。

def balancedReduce[X](list: List[X])(op: (X, X) => X): X = list match {
  case Nil => throw new IllegalArgumentException("Cannot reduce empty list")
  case List(x) => x
  case xs => {
    val n = xs.size
    val (as, bs) = list.splitAt(n / 2)
    op(balancedReduce(as)(op), balancedReduce(bs)(op))
  }
}

现在，在代码中，您可以替换

colsList.reduce(_ + _)

通过

balancedReduce(colsList)(_ + _)

一个小示例进一步说明了BinaryExpression的情况，它可以在没有任何依赖项的情况下编译：

sealed trait FormalExpr
case class BinOp(left: FormalExpr, right: FormalExpr) extends FormalExpr {
  override def toString: String = {
    val lStr = left.toString.split("\n").map("  " + _).mkString("\n")
    val rStr = right.toString.split("\n").map("  " + _).mkString("\n")
    return s"BinOp(\n${lStr}\n${rStr}\n)"
  }
}
case object Leaf extends FormalExpr

val leafs = List.fill[FormalExpr](16){Leaf}

println(leafs.reduce(BinOp(_, _)))
println(balancedReduce(leafs)(BinOp(_, _)))

这就是普通的reduce所做的事情(这也是代码中本质上发生的事情)：

这就是balancedReduce所产生的：

BinOp(
  BinOp(
    BinOp(
      BinOp(
        Leaf
        Leaf
      )
      BinOp(
        Leaf
        Leaf
      )
    )
    BinOp(
      BinOp(
        Leaf
        Leaf
      )
      BinOp(
        Leaf
        Leaf
      )
    )
  )
  BinOp(
    BinOp(
      BinOp(
        Leaf
        Leaf
      )
      BinOp(
        Leaf
        Leaf
      )
    )
    BinOp(
      BinOp(
        Leaf
        Leaf
      )
      BinOp(
        Leaf
        Leaf
      )
    )
  )
)

该线性化链的长度为O(n)，当催化剂试图评估它时，它会破坏堆栈。这不应该发生在扁平的树深度O(log(n))。

当我们讨论渐近运行时时:为什么要附加到可变的colsList中？这需要O(n^2)时间。为什么不简单地对toList的输出调用.columns

票数 10

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49691021

复制

相似问题

问当使用火花中的大量列操作时，StackOverflowError
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用火花中的大量列操作时，StackOverflowErrorEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当使用火花中的大量列操作时，StackOverflowError
EN