文章/答案/技术大牛

发布

社区首页 >问答首页 >尝试使用Apply处理144 k行，但结果太慢

问尝试使用Apply处理144 k行，但结果太慢
EN

Stack Overflow用户

提问于 2015-03-18 16:51:43

回答 2查看 103关注 0票数 1

我正在编写一个自定义修改版本的朴素贝叶斯在R，并遇到运行时问题，因为数据正在处理的大小。我需要处理~145 K行，每个行有95个元素。我目前正在使用以下函数来获得朴素贝叶斯的第一步。

probGen <- function(x, i)
{
  return(1/(sqrt(2*pi*sdBreakdown[i,]^2)
            *exp(-((x - meanBreakdown[i,])^2)/(2*(sdBreakdown[i,]^2)))))
}

在这个函数中，sdBreakdown和meanBreakdown是每个可能的解决方案的聚合值。每次运行应用程序时，我们都会得到每个给定列的概率。应用程序在矩阵上运行如下，其中每一行都是我们试图分类的另一个元素。

test.1 <- t(apply(temp,MARGIN=1,FUN=probGen, 1))
test.2 <- t(apply(temp,MARGIN=1,FUN=probGen, 2))
test.3 <- t(apply(temp,MARGIN=1,FUN=probGen, 3))
test.4 <- t(apply(temp,MARGIN=1,FUN=probGen, 4))
test.5 <- t(apply(temp,MARGIN=1,FUN=probGen, 5))
test.6 <- t(apply(temp,MARGIN=1,FUN=probGen, 6))
test.7 <- t(apply(temp,MARGIN=1,FUN=probGen, 7))
test.8 <- t(apply(temp,MARGIN=1,FUN=probGen, 8))
test.9 <- t(apply(temp,MARGIN=1,FUN=probGen, 9))

以下是我目前如何调用每一份申请。这为每种可能的分类提供了每个元素的概率1-9。我不想使用开箱即用的朴素贝叶斯，因为我试图更好地理解R，并有一些潜在的精度改进，我想试验。

我不知道如何以更及时的方式运行，尽管按照编码，它需要几个小时，如果我在其他项目运行时积极工作，可能需要7或8个小时。

编辑：

若要澄清此示例中的数据，请执行以下操作。

temp是每一行都是要分类的项目的145 kx95矩阵，每一列都是用数字表示的质量。

meanBreakdown是9x95矩阵，每一行是不同的分类，每列对应于分类的平均质量。

sdBreakdown与meanBreakdown相同，只是存储标准偏差而不是平均平均值。

并行处理似乎是可行的，但我认为(显然我错了)数据集不够大，不足以满足需要。

编辑2:这是完整的代码。如果这是非常糟糕的R码，请原谅。我一直是一个C开发人员，所以R是思想上的一个很大的改变，我在R中只做了几个小项目来学习细节。

training <- read.csv(file = 'data\\train.csv', sep=',', header=T)

negativeOne <- function(x)
{
  x <- pmin(1, x)
  return(1-mean(x))
}

pullZeros <- function(x)
{
  x <- ifelse(x == 0, 1, 0)
  return(mean(x))
}

trainingSet <- function(x)
{
  x <- ifelse(x == 0, NA, x)
  return(mean(x, na.rm=T))
}
trainingSetSd <- function(x)
{
  x <- ifelse(x == 0, NA, x)
  return(sd(x, na.rm=T))
}

positiveBreakDown <- aggregate(x=training[,colnames(training)[grepl("feat",colnames(training))]],
                         by=list(training$target), FUN=trainingSet)

positiveBreakDownSd <- aggregate(x=training[,colnames(training)[grepl("feat",colnames(training))]],
                               by=list(training$target), FUN=trainingSetSd)

negativeBreakDown <- aggregate(x=training[,colnames(training)[grepl("feat",colnames(training))]],
                     by=list(training$target), FUN=negativeOne)

meanBreakdown <- positiveBreakDown[,colnames(positiveBreakDown)[grepl("feat",colnames(positiveBreakDown))]]

sdBreakdown <- positiveBreakDownSd[,colnames(positiveBreakDownSd)[grepl("feat",colnames(positiveBreakDownSd))]]

probGen <- function(x, i)
{
  return(1/(sqrt(2*pi*sdBreakdown[i,]^2)
            *exp(-((x - meanBreakdown[i,])^2)/(2*(sdBreakdown[i,]^2)))))
}

test <-  read.csv(file = 'data\\test.csv', sep=',', header=T)

PosTest <- test[,colnames(test)[grepl("feat",colnames(test))]]


NegTest <- aggregate(x=test[,colnames(test)[grepl("feat",colnames(test))]],
                  by=list(test$id), FUN=pullZeros)

NegTest$Group.1 <- NULL
temp <- PosTest

sweepTest.1 <- t(apply(temp,MARGIN=1,FUN=probGen, 1))
sweepTest.2 <- t(apply(temp,MARGIN=1,FUN=probGen, 2))
sweepTest.3 <- t(apply(temp,MARGIN=1,FUN=probGen, 3))
sweepTest.4 <- t(apply(temp,MARGIN=1,FUN=probGen, 4))
sweepTest.5 <- t(apply(temp,MARGIN=1,FUN=probGen, 5))
sweepTest.6 <- t(apply(temp,MARGIN=1,FUN=probGen, 6))
sweepTest.7 <- t(apply(temp,MARGIN=1,FUN=probGen, 7))
sweepTest.8 <- t(apply(temp,MARGIN=1,FUN=probGen, 8))
sweepTest.9 <- t(apply(temp,MARGIN=1,FUN=probGen, 9))

temp <- NegTest
temp$Group.1 <- NULL

N.sweepTest.1 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[1, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.2 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[2, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.3 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[3, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.4 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[4, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.5 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[5, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.6 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[6, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.7 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[7, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.8 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[8, grepl("feat",colnames(positiveBreakDown))]),`*`)
N.sweepTest.9 <- sweep(as.matrix(temp),MARGIN=2,
                       as.numeric(negativeBreakDown[9, grepl("feat",colnames(positiveBreakDown))]),`*`)


sweepTest.1 <- (-1*(N.sweepTest.1 - 1)*sweepTest.1) + N.sweepTest.1
sweepTest.2 <- (-1*(N.sweepTest.2 - 1)*sweepTest.2) + N.sweepTest.2
sweepTest.3 <- (-1*(N.sweepTest.3 - 1)*sweepTest.3) + N.sweepTest.3
sweepTest.4 <- (-1*(N.sweepTest.4 - 1)*sweepTest.4) + N.sweepTest.4
sweepTest.5 <- (-1*(N.sweepTest.5 - 1)*sweepTest.5) + N.sweepTest.5
sweepTest.6 <- (-1*(N.sweepTest.6 - 1)*sweepTest.6) + N.sweepTest.6
sweepTest.7 <- (-1*(N.sweepTest.7 - 1)*sweepTest.7) + N.sweepTest.7
sweepTest.8 <- (-1*(N.sweepTest.8 - 1)*sweepTest.8) + N.sweepTest.8
sweepTest.9 <- (-1*(N.sweepTest.9 - 1)*sweepTest.9) + N.sweepTest.9

rm(N.sweepTest.1,N.sweepTest.2,N.sweepTest.3,N.sweepTest.4,N.sweepTest.5,N.sweepTest.6,N.sweepTest.7,N.sweepTest.8,N.sweepTest.9)

dist <- 1:9

for(i in 1:9)
{
  dist[i] <- nrow(training[training$target == paste0("Class_",i),])
}

res1 <- dist[1]*apply(t(sweepTest.1), MARGIN=2, FUN=prod)
res2 <- dist[2]*apply(t(sweepTest.2), MARGIN=2, FUN=prod)
res3 <- dist[3]*apply(t(sweepTest.3), MARGIN=2, FUN=prod)
res4 <- dist[4]*apply(t(sweepTest.4), MARGIN=2, FUN=prod)
res5 <- dist[5]*apply(t(sweepTest.5), MARGIN=2, FUN=prod)
res6 <- dist[6]*apply(t(sweepTest.6), MARGIN=2, FUN=prod)
res7 <- dist[7]*apply(t(sweepTest.7), MARGIN=2, FUN=prod)
res8 <- dist[8]*apply(t(sweepTest.8), MARGIN=2, FUN=prod)
res9 <- dist[9]*apply(t(sweepTest.9), MARGIN=2, FUN=prod)

rm(sweepTest.1,sweepTest.2,sweepTest.3,sweepTest.4,sweepTest.5,sweepTest.6,sweepTest.7,sweepTest.8,sweepTest.9)

interRes <- data.frame(Class_1 = res1, Class_2 = res2,Class_3 = res3,
                       Class_4 = res4,Class_5 = res5,Class_6 = res6,
                       Class_7 = res7,Class_8 = res8,Class_9 = res9)


rm(res1,res2,res3,res4,res5,res6,res7,res8,res9)

temp <- apply(t(interRes), MARGIN=2, FUN=sum)

tempRes <- interRes/temp

data<- data.frame(id=test$id)

data <- cbind(data,tempRes)

fname <- file.choose()
write.table(data, fname, row.names=FALSE, sep=",")

naivebayes

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-03-18 18:13:12

您需要正确地将代码向量化。有了这样一个简单的函数，就不需要使用apply，它基本上只是一个for循环。

首先，我们生成一些人造数据：

rm(list = ls())
set.seed(1)
# Dimensions of data and some faux data
n <- 144000
m <- 95
temp <- matrix(rnorm(n*m), nrow = n, ncol = m)

meanBreakdown <- matrix(seq(-1, 1, l = 9*m), 9, m)  # Matrix of means
sdBreakdown <- matrix(seq(1, 2, l = 9*m), 9, m)  # Matrix of std. deviations

让我们为您的版本安排一个i = 1。我冒昧地让它更易读。另外，我想我发现了一个错误(如果函数只是高斯密度)。不管怎样，

probGen <- function(x, means, sds) { # NOTE THAT THIS HAS CHANGED
   return(1/sqrt(2*pi*sds^2)*exp(-(1/(2*sds^2))*(x - means)^2) )
}

i <- 1
t1 <- system.time({
  res1 <- t(apply(temp, 1, probGen, mean = meanBreakdown[i,], 
                                    sds = sdBreakdown[i,]))
})
print(res1[1:5, 1:7])
#          [,1]       [,2]        [,3]       [,4]       [,5]      [,6]           [,7]
#[1,] 0.3720575 0.38038806 0.385805475 0.36747185 0.32253028 0.3008070 0.37473829
#[2,] 0.1980087 0.02837476 0.019424716 0.03520653 0.25872889 0.2223151 0.05506068
#[3,] 0.3935892 0.24920567 0.116377580 0.13580043 0.07012818 0.1682480 0.35898510
#[4,] 0.0137505 0.37288236 0.002338961 0.21928922 0.36341271 0.0250388 0.05103852
#[5,] 0.1648476 0.32981193 0.031723978 0.12681473 0.25509082 0.1959218 0.35277957
print(t1)
#   user  system elapsed 
#  3.452   0.205   3.662

这里有一个替代版本，我们利用矩阵以一种主要的方式存储，并使用R的复制规则：

probGen2 <- function(x, means, sds) {    
  return(t(1/sqrt(2*pi*sds^2)*exp(-(1/(2*sds^2))*(t(x) - means)^2)))
}

i <- 1
t2 <- system.time({
  res2 <- probGen2(x = temp, means = meanBreakdown[i, ],
                             sds = sdBreakdown[i, ])
})
print(res2[1:5, 1:7])
#          [,1]       [,2]        [,3]       [,4]       [,5]      [,6]       [,7]
#[1,] 0.3720575 0.38038806 0.385805475 0.36747185 0.32253028 0.3008070 0.37473829
#[2,] 0.1980087 0.02837476 0.019424716 0.03520653 0.25872889 0.2223151 0.05506068
#[3,] 0.3935892 0.24920567 0.116377580 0.13580043 0.07012818 0.1682480 0.35898510
#[4,] 0.0137505 0.37288236 0.002338961 0.21928922 0.36341271 0.0250388 0.05103852
#[5,] 0.1648476 0.32981193 0.031723978 0.12681473 0.25509082 0.1959218 0.35277957
print(t2)
#   user  system elapsed 
#  0.499   0.014   0.515

正如您所看到的，对于一些非常简单的更改，我们已经有了相当快的速度。显然，您可以将其与并行计算结合起来，以获得进一步的速度增益。

最后，让我们检查一下，每件事都是一样的：

 all.equal(res1, res2)
 # [1] TRUE

票数 2

Stack Overflow用户

发布于 2015-03-18 17:02:46

查看parallel包和mcmapply或mclapply，以并行运行apply调用。正如所写的，您的代码是按顺序运行的(也就是说，在进入2之前，您必须完成所有的1种分类，等等)。

据我理解，您在相同的数据上运行相同的函数，但参数不同。与其执行多个apply调用，不如重新构造函数以允许使用mcmapply --它允许您使用apply功能，但可以迭代多个参数。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29128002

复制

相似问题

问尝试使用Apply处理144 k行，但结果太慢
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试使用Apply处理144 k行，但结果太慢EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试使用Apply处理144 k行，但结果太慢
EN