我在R中使用了'agrep‘函数,它返回一个匹配向量。我想要一个类似于agrep的函数,它只返回最佳匹配,或者如果有平局,则返回最佳匹配。目前,我正在使用包'cba‘中的'sdist()’函数对结果向量的每个元素执行此操作,但这似乎非常多余。
/edit:这是我目前使用的函数。我想加快速度,因为计算两次距离似乎是多余的。
library(cba)
word <- 'test'
words <- c('Teest','teeeest','New York City','yeast','text','Test')
ClosestMatch <- function(string,StringVector) {
matches <- agrep(string,StringVector,value=TRUE)
distance <- sdists(string,matches,method = "ow",weight = c(1, 0, 2))
matches <- data.frame(matches,as.numeric(distance))
matches <- subset(matches,distance==min(distance))
as.character(matches$matches)
}
ClosestMatch(word,words)发布于 2014-11-23 23:14:41
RecordLinkage包已从CRAN中删除,请改用stringdist:
library(stringdist)
ClosestMatch2 = function(string, stringVector){
stringVector[amatch(string, stringVector, maxDist=Inf)]
}发布于 2011-04-20 05:55:37
agrep包使用Levenshtein距离来匹配字符串。RecordLinkage包有一个计算Levenshtein距离的C函数,可以直接用来加快计算速度。下面是一个修改过的ClosestMatch函数,它的速度提高了10倍
library(RecordLinkage)
ClosestMatch2 = function(string, stringVector){
distance = levenshteinSim(string, stringVector);
stringVector[distance == max(distance)]
}https://stackoverflow.com/questions/5721883
复制相似问题