我正在尝试在我的数据集中输入一些基于另一个数据集的数据。然而,要做到这一点,我需要比较几个变量,每个变量都有一个权重。另外,我需要使用键变量形成对,键变量是我数据中的id。
我试图使用compare.linkage,但我找不到一种方法来插入我想要的权重,例如40%给Age,40%给CHBORN,20%给URBAN。
Complete <- data.frame(KEY = c(001, 002, 003), AGE = c(35, 38, 45), CHBORN = c(2, 3, 4), URBAN = c(1, 2, 2))
incomplete <- data.frame(KEY = c(004, 005, 006), AGE = c(25, 38, 45), CHBORN = c(1, 2, 4), URBAN = c(2, 1, 1))
KEY_Pairs <- compare.linkage(incomplete, complete, blockfld = c(2, 3, 4), strcmp = TRUE, strcmpfun = levenshteinSim()) #I stopped here我想要找到类似下面这样的结果:
KEY_incomplete KEY_complete Scores
004 001 0.95通常,我使用来自埃默里大学的软件FRIL来完成这项工作,但我正试图将所有内容都集中在R中。
最好的
Tereza
发布于 2019-03-07 03:05:04
程序包为RecordLinkage:https://cran.r-project.org/web/packages/RecordLinkage/RecordLinkage.pdf
https://stackoverflow.com/questions/55008833
复制相似问题