为了使模糊连接,我正在试验字符串包,我遇到了一个问题,我不明白,也找不到答案。我想用"dl“方法连接这两个数据表,它产生一个NA,这一点我完全不理解。也许你们中的一个对此有个解释。守则:
library(fuzzyjoin)
test1<-as.data.frame(test1<-c("techniker"))
test2<-as.data.frame(test2<-c("technician"))
setnames(test2,1,"label")
setnames(test1,1,"label")
x <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl") 但是,如果我使用jaccard方法,则有一个匹配:
y <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="jaccard", q=4) 希望任何人都能澄清。
欢呼声圆顶
发布于 2017-09-21 15:35:17
默认情况下,max_dist设置为2。
dl与"tekniker"之间的距离大于2。
所以没有匹配的。
stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl",max_dist=5)
# label.x label.y distance
# 1 techniker techni 3https://stackoverflow.com/questions/46346918
复制相似问题