文章/答案/技术大牛

发布

社区首页 >问答首页 >分组中的Spark2 Dataframe/RDD过程

问分组中的Spark2 Dataframe/RDD过程
EN

Stack Overflow用户

提问于 2017-10-09 15:14:03

回答 1查看 181关注 0票数 1

下面的表格存储在名为ExampleData的Hive中：

+--------+-----+---|
|Site_ID |Time |Age|
+--------+-----+---|
|1       |10:00| 20|
|1       |11:00| 21|
|2       |10:00| 24|
|2       |11:00| 24|
|2       |12:00| 20|
|3       |11:00| 24|
+--------+-----+---+

我需要能够处理数据的网站。不幸的是，按站点进行分区不起作用(有超过100k个站点，所有这些站点的数据量都很小)。

对于每个站点，我需要分别选择Time列和Age列，并使用它们来输入函数(理想情况下，我希望在执行器上运行，而不是在驱动程序上运行)

我有一个存根，我认为我想它的工作，但这个解决方案将只运行在驱动，所以它很慢。我需要找到一种编写它的方法，这样它就可以运行执行者级别：

// fetch a list of distinct sites and return them to the driver 
//(if you don't, you won't be able to loop around them as they're not on the executors)
val distinctSites = spark.sql("SELECT site_id FROM ExampleData GROUP BY site_id LIMIT 10")
.collect

val allSiteData = spark.sql("SELECT site_id, time, age FROM ExampleData")

distinctSites.foreach(row => {
    allSiteData.filter("site_id = " + row.get(0))
    val times = allSiteData.select("time").collect()
    val ages = allSiteData.select("ages").collect()
    processTimesAndAges(times, ages)
})

def processTimesAndAges(times: Array[Row], ages: Array[Row]) {
    // do some processing
}

我尝试过在所有节点上广播distinctSites，但这并没有证明是有成效的。

这似乎是一个简单的概念，但我花了几天的时间来研究这个问题。我对Scala/Spark非常陌生，如果这是一个可笑的问题，我很抱歉！

如有任何建议或建议，将不胜感激。

apache-spark

bigdata

apache-spark-sql

spark-dataframe

scala

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-10-09 17:41:18

RDD提供了许多函数，这些函数可以用于以组形式执行操作，从低级别的重新分区/ repartitionAndSortWithinPartitions开始，以多个*byKey方法(combineByKey、groupByKey、reduceByKey等)结尾。

例子：

rdd.map( tup => ((tup._1, tup._2, tup._3), tup) ).
  groupByKey().
  forEachPartition( iter => doSomeJob(iter) )

在DataFrame中，您可以使用聚合函数，GroupedData类为最常见的函数提供了许多方法，包括计数、最大值、最小值、平均值和和。

例子：

   val df = sc.parallelize(Seq(
      (1, 10.3, 10), (1, 11.5, 10),
      (2, 12.6, 20), (3, 2.6, 30))
    ).toDF("Site_ID ", "Time ", "Age")

df.show()

+--------+-----+---+
|Site_ID |Time |Age|
+--------+-----+---+
|       1| 10.3| 10|
|       1| 11.5| 10|
|       2| 12.6| 20|
|       3|  2.6| 30|
+--------+-----+---+


    df.groupBy($"Site_ID ").count.show

+--------+-----+
|Site_ID |count|
+--------+-----+
|       1|    2|
|       3|    1|
|       2|    1|
+--------+-----+

注意:正如您已经提到的，解决方案非常慢，您需要使用分区，在您的情况下，范围分区是很好的选择。

http://dev.sortable.com/spark-repartition/
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-rdd-partitions.html
http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46649720

复制

相似问题

问分组中的Spark2 Dataframe/RDD过程
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分组中的Spark2 Dataframe/RDD过程EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分组中的Spark2 Dataframe/RDD过程
EN