我只是在使用stringdist_join()进行左连接,并且遇到了麻烦,因为我的输出比原始的“左”数据帧有更多的行。
nrow(records_nona)
#output : 603
nrow(institutions)
# output : 981
records_nona <- stringdist_left_join(records_nona, institutions,
by = c("tm_1_undergradu" = "Institution.Name"))
nrow(records_nona)
# output: 635我不确定,我在这里搞砸了什么才有可能做到这一点。或者我对左连接的理解是错误的。任何指导都将不胜感激,谢谢。
发布于 2018-11-06 00:11:47
我能够找到解决方案,由于连接的近似性,左连接产生了重复的连接,所以我只需要减少max_dist = 1。(默认值是max_dist = 2)。现在我有了正确的行数。
https://stackoverflow.com/questions/53157201
复制相似问题