文章/答案/技术大牛

发布

问我如何并行化combn()？
EN

Stack Overflow用户

提问于 2016-02-09 20:54:15

回答 2查看 684关注 0票数 5

函数combn()一次生成x的所有元素组合。对于nCm小(其中n是x的元素数)，它是非常快速和有效的，但是它很快就耗尽了内存。例如：

> combn(c(1:50), 12, simplify = TRUE)
Error in matrix(r, nrow = len.r, ncol = count) : 
invalid 'ncol' value (too large or NA)

我想知道函数combn()是否可以修改，使其只生成k个选定的组合。让我们调用这个新函数chosencombn()。那我们就会：

> combn(c("a", "b", "c", "d"), m=2)
     [,1] [,2] [,3] [,4] [,5] [,6]
 [1,] "a"  "a"  "a"  "b"  "b"  "c" 
 [2,] "b"  "c"  "d"  "c"  "d"  "d" 

>chosencombn(c("a", "b", "c", "d"), m=2, i=c(1,4,6))
     [,1] [,2] [,3]
 [1,] "a"  "b"  "c" 
 [2,] "b"  "c"  "d"

>chosencombn(c("a", "b", "c", "d"), m=2, i=c(4,5))
     [,1] [,2]
 [1,] "b"  "b" 
 [2,] "c"  "d"

据我所知，这样的函数需要使用组合的排序，这样就可以立即找到给定组合的位置。这样的秩序存在吗？它能被编码以获得像combn()这样高效的函数吗？

parallel-processing

combinations

combinatorics

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-06 12:00:39

包“脚步声”对此非常有用，因为它不会将排列保存在内存中。

library(trotter)

combs = cpv(2, c("a", "b", "c", "d"))
sapply(c(1, 4, 6), function(i) combs[i])
#     [,1] [,2] [,3]
#[1,] "a"  "b"  "c" 
#[2,] "b"  "c"  "d"

票数 1

Stack Overflow用户

发布于 2016-02-09 21:28:14

为了了解combn如何命令它的输出，让我们看一下combn(1:5, 3)的输出

combn(1:5, 3)
#      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
# [1,]    1    1    1    1    1    1    2    2    2     3
# [2,]    2    2    2    3    3    4    3    3    4     4
# [3,]    3    4    5    4    5    5    4    5    5     5

这里有很多结构。首先，所有的列都是在向下排列的，第一行是不递减的.以1开头的列在它们下面有combn(2:5, 2)；以2开头的列在它们下面有combn(3:5, 2)；依此类推。

现在让我们考虑如何构造第8列，我重构的方法是确定该列的第一个元素(由于上面的关系，有以1开头的choose(4, 2)=6列、以2开头的choose(3, 2)=3列和以3开头的choose(2, 2)=1列)。在本例中，我们确定以2开头，因为第7-9列必须以2开头。

为了确定列的第二个元素和后续元素，我们用更少的元素重复这个过程(因为2是我们的第一个元素，我们现在从元素3-5中选择)，一个新的位置(我们选择以2开头的列号8-6= 2 )，以及要选择的新元素数(我们需要3-1=2多个元素)。

下面的getcombn是一个迭代公式，它就是这样做的：

getcombn <- function(x, m, pos) {
  combo <- rep(NA, m)
  start <- 1
  for (i in seq_len(m-1)) {
    end.pos <- cumsum(choose((length(x)-start):(m-i), m-i))
    selection <- which.max(end.pos >= pos)
    start <- start + selection
    combo[i] <- x[start - 1]
    pos <- pos - c(0, end.pos)[selection]
  }
  combo[m] <- x[start + pos - 1]
  combo
}

chosencombn <- function(x, m, all.pos) {
  sapply(all.pos, function(pos) getcombn(x, m, pos))
}
chosencombn(c("a", "b", "c", "d"), 2, c(1,4,6))
#     [,1] [,2] [,3]
# [1,] "a"  "b"  "c" 
# [2,] "b"  "c"  "d" 
chosencombn(c("a", "b", "c", "d"), 2, c(4,5))
#     [,1] [,2]
# [1,] "b"  "b" 
# [2,] "c"  "d"

这使您能够在无法枚举所有组合(内存不足)的情况下计算特定列。例如，有50个选项时，选择25个元素的方式是一个14位数的数字，所以枚举所有组合可能不是一个选项。不过，您仍然可以计算特定的指示组合：

chosencombn(1:50, 25, c(1, 1000000L, 1e14))
#       [,1] [,2] [,3]
#  [1,]    1    1    3
#  [2,]    2    2    4
#  [3,]    3    3    6
#  [4,]    4    4    7
#  [5,]    5    5    8
#  [6,]    6    6   11
#  [7,]    7    7   14
#  [8,]    8    8   15
#  [9,]    9    9   17
# [10,]   10   10   20
# [11,]   11   11   22
# [12,]   12   12   25
# [13,]   13   13   27
# [14,]   14   14   30
# [15,]   15   15   31
# [16,]   16   16   32
# [17,]   17   17   33
# [18,]   18   18   36
# [19,]   19   20   37
# [20,]   20   23   39
# [21,]   21   27   40
# [22,]   22   39   42
# [23,]   23   42   47
# [24,]   24   45   48
# [25,]   25   49   50

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35301986

复制

相似问题

问我如何并行化combn()？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何并行化combn()？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我如何并行化combn()？
EN