文章/答案/技术大牛

发布

问agrep:仅返回最佳匹配(Es)
EN

Stack Overflow用户

提问于 2011-04-20 03:53:20

回答 2查看 18.1K关注 0票数 24

我在R中使用了'agrep‘函数，它返回一个匹配向量。我想要一个类似于agrep的函数，它只返回最佳匹配，或者如果有平局，则返回最佳匹配。目前，我正在使用包'cba‘中的'sdist()’函数对结果向量的每个元素执行此操作，但这似乎非常多余。

/edit:这是我目前使用的函数。我想加快速度，因为计算两次距离似乎是多余的。

library(cba)
word <- 'test'
words <- c('Teest','teeeest','New York City','yeast','text','Test')
ClosestMatch <- function(string,StringVector) {
  matches <- agrep(string,StringVector,value=TRUE)
  distance <- sdists(string,matches,method = "ow",weight = c(1, 0, 2))
  matches <- data.frame(matches,as.numeric(distance))
  matches <- subset(matches,distance==min(distance))
  as.character(matches$matches)
}

ClosestMatch(word,words)

agrep

text

character

string-matching

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-11-23 23:14:41

RecordLinkage包已从CRAN中删除，请改用stringdist：

library(stringdist)

ClosestMatch2 = function(string, stringVector){

  stringVector[amatch(string, stringVector, maxDist=Inf)]

}

票数 14

Stack Overflow用户

发布于 2011-04-20 05:55:37

agrep包使用Levenshtein距离来匹配字符串。RecordLinkage包有一个计算Levenshtein距离的C函数，可以直接用来加快计算速度。下面是一个修改过的ClosestMatch函数，它的速度提高了10倍

library(RecordLinkage)

ClosestMatch2 = function(string, stringVector){

  distance = levenshteinSim(string, stringVector);
  stringVector[distance == max(distance)]

}

票数 29

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5721883

复制

相似问题

问agrep:仅返回最佳匹配(Es)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问agrep:仅返回最佳匹配(Es)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问agrep:仅返回最佳匹配(Es)
EN