首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Microsoft Azure HDInsight上的R-server -处理非常广泛的数据。- rxExec?

Microsoft Azure HDInsight上的R-server -处理非常广泛的数据。- rxExec?
EN

Stack Overflow用户
提问于 2017-01-19 03:45:56
回答 1查看 145关注 0票数 1

下面的代码会让你对我想要做的事情有所了解。在现实中:我正在处理推定的遗传学文件。总体而言,数千人大约有1亿个SNPs (变量)。我想对每个单独的变量运行回归。任何单独的模型在计算上都是一个微不足道的任务,问题是我正在处理巨大的文件,并运行这些模型1亿次。

据微软称,他们的HDInsight R-server针对长数据进行了优化。如果我有一千个变量和一亿个观察值,这项任务会容易得多。

所以我想把我的大文件分成几个部分。例如,将1个百万个SNP的数据集拆分为10个100,000个SNP的数据集。

这是我想要运行的代码,最后一行不起作用。需要知道如何将这10个较小的数据集分别发送到不同的节点,然后运行一个通用函数。通常,我希望重现mclapply()函数,但不是在多个核心上运行它,而是在多个工作节点上运行它。

通常,服务器的工作方式是自动将行分成几个部分,并以这种方式分发任务,这是对几千个观察值的资源浪费

代码语言:javascript
复制
col <- 10000
row <- 500

df <- data.frame(matrix(rnorm(row*col),nrow=row))
caco <- sample(0:1, row, replace=T)



# The way I would do it locally for a normal dataset


fun <- function(x){
  var <- df[[x]]
  model <- summary(glm(caco ~ var, family="binomial"))
  p <- c(x,coef(model)["var","Pr(>|z|)"])
  return(p)
}

stuff <- names(df)
results <- lapply(stuff,fun) 
# or
results <- mclapply(stuff,fun)



### what I want to do

# Split into several data frames
# possibly to other data manipulation, whatever is necessary

df1 <- df[,1:2000]
df2 <- df[,2001:4000]
df3 <- df[,4001:6000]
df4 <- df[,6001:8000]
df5 <- df[,8001:10000]

# I want to send each worker node one of these datasets, so each runs 2000 models

# this code does not work - 
# but I think this is the general direction I want to go, using the 
# rxExec function

out <- rxExec(fun, rxElemArg(stuff), execObjects=c("df1","df2","df3","df4")
EN

回答 1

Stack Overflow用户

发布于 2017-01-27 06:48:23

请查看RxExec文档是否可以在这里提供帮助。https://msdn.microsoft.com/en-us/microsoft-r/scaler-distributed-computing#parallel-computing-with-rxexec

尤其是这一节,它演示了一个类似的案例。https://msdn.microsoft.com/en-us/microsoft-r/scaler-distributed-computing#plotting-the-mandelbrot-set

为了获得更好的运行时性能,用户可能希望直接在rxExec中操作输入文件,而不是通过dataFrame对象共享它。

如果你有更多的问题,请告诉我(微软网站上的小玉柱)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41728154

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档