我有两个书目数据集A&B (.bib文件,WoS导出,完整记录和引用)。这两种方法都包含了相关和无关的结果。第一个数据集A已被清理,因此我将相关的结果A(r)和无关的结果A(i)作为两个不同的数据集(.bib文件)。第二个数据集B完全包含我的第一个数据集A。可视化我的两个数据集
目标:--我正在寻找一种方法,从我的第二个数据集B中删除不相关的结果A(i),这是我已经在第一个数据集中识别的。
方法:如果我要合并数据集B & A(i),我可以通过使用删除重复函数来跟踪B中不相关的结果A(i),因为A(i)在B中会发生两次,但是这只会删除A(i)的重复项,而不是A(i)的所有实例。
删除重复内容的函数:
包装改造工具
匹配<- find_duplicates(data,match_variable = "title") data_unique <- extract_unique_references(数据,匹配)
包参考书目
duplicatedMatching(M,Field = "TI",tol = 0.95)
·问题1:是否有一种方法可以删除通过查找/删除重复函数标识的所有重复实例(副本和原件)?
·问题2:是否有更好的方法从B中去除A(i)?即删除数据集中的所有重复实例。
·问题3:更普遍的问题是:我能否在我的数据集中搜索更多的特定书目数据(一份论文列表)并将其从该数据集中删除?
非常感谢你的帮助!
发布于 2019-12-04 13:00:59
您可以使用match在两个数据集中找到相同的title。
#remove Ai from B
B[-match(unique(Ai$title), B$title),]
# title misc
#1 a X
#2 b X
#5 e X
#7 g X
#remove Ai and Ar from B
B[-match(unique(c(Ai$title, Ar$title)), B$title),]
# title misc
#7 g X数据:
Ar <- data.frame(title=c("a", "b", "e"), misc="X", stringsAsFactors = FALSE)
Ai <- data.frame(title=c("d", "c", "f"), misc="X", stringsAsFactors = FALSE)
B <- data.frame(title=letters[1:7], misc="X", stringsAsFactors = FALSE)https://stackoverflow.com/questions/59175641
复制相似问题