首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >SparkR:定制的aggregete函数

SparkR:定制的aggregete函数
EN

Stack Overflow用户
提问于 2022-08-24 11:46:22
回答 1查看 31关注 0票数 0

我需要使用本机R函数IQR计算聚合。

代码语言:javascript
复制
df1 <- SparkR::createDataFrame(iris)
df2 <- SparkR::agg(SparkR::groupBy(df1, "Species"), 
  IQR_Sepal_Length=IQR(df1$Sepal_Length, na.rm = TRUE)
)

返回

as.numeric(X)中的错误:不能强迫类型'S4‘到'double’类型的向量

我该怎么做呢?

EN

回答 1

Stack Overflow用户

发布于 2022-11-15 01:28:43

这正是创建gapplydapplygapplyCollect的目的所在!本质上,您可以在Spark中使用用户定义的函数,该函数的运行方式不如本地Spark函数,但至少可以得到所需的东西。

我建议您开始使用gapplyCollect,然后转到gapply

代码语言:javascript
复制
df1 <- SparkR::createDataFrame(iris)
# gapplyCollect does not require you to specify output schema
# but, it will collect all the distributed workload back to driver node
# hence, it is not efficient if you expect huge sized output
df2 <- SparkR::gapplyCollect(
  df1, 
  c("Species"), 
  function(key, x){
    df_agg <- data.frame(
      Species = key[[1]], 
      IQR_Sepal_Length = IQR(x$Sepal_Length, na.rm = TRUE)
    )
  }
)
# This is how you do the same thing using gapply - specify schema
df3 <- SparkR::gapply(
  df1, 
  c("Species"), 
  function(key, x){
    df_agg <- data.frame(
      Species = key[[1]], 
      IQR_Sepal_Length = IQR(x$Sepal_Length, na.rm = TRUE)
    )
  },
  schema = "Species STRING, IQR_Sepal_Length DOUBLE"
)
SparkR::head(df3)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73472574

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档