首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除R中书目数据集中的所有重复实例

删除R中书目数据集中的所有重复实例
EN

Stack Overflow用户
提问于 2019-12-04 12:04:14
回答 1查看 363关注 0票数 0

我有两个书目数据集A&B (.bib文件,WoS导出,完整记录和引用)。这两种方法都包含了相关和无关的结果。第一个数据集A已被清理,因此我将相关的结果A(r)和无关的结果A(i)作为两个不同的数据集(.bib文件)。第二个数据集B完全包含我的第一个数据集A。可视化我的两个数据集

目标:--我正在寻找一种方法,从我的第二个数据集B中删除不相关的结果A(i),这是我已经在第一个数据集中识别的。

方法:如果我要合并数据集B & A(i),我可以通过使用删除重复函数来跟踪B中不相关的结果A(i),因为A(i)在B中会发生两次,但是这只会删除A(i)的重复项,而不是A(i)的所有实例。

删除重复内容的函数:

包装改造工具

匹配<- find_duplicates(data,match_variable = "title") data_unique <- extract_unique_references(数据,匹配)

包参考书目

duplicatedMatching(M,Field = "TI",tol = 0.95)

·问题1:是否有一种方法可以删除通过查找/删除重复函数标识的所有重复实例(副本和原件)?

·问题2:是否有更好的方法从B中去除A(i)?即删除数据集中的所有重复实例。

·问题3:更普遍的问题是:我能否在我的数据集中搜索更多的特定书目数据(一份论文列表)并将其从该数据集中删除?

非常感谢你的帮助!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-04 13:00:59

您可以使用match在两个数据集中找到相同的title

代码语言:javascript
复制
#remove Ai from B
B[-match(unique(Ai$title), B$title),]
#  title misc
#1     a    X
#2     b    X
#5     e    X
#7     g    X

#remove Ai and Ar from B
B[-match(unique(c(Ai$title, Ar$title)), B$title),]
#  title misc
#7     g    X

数据:

代码语言:javascript
复制
Ar <- data.frame(title=c("a", "b", "e"), misc="X", stringsAsFactors = FALSE)
Ai <- data.frame(title=c("d", "c", "f"), misc="X", stringsAsFactors = FALSE)
B <- data.frame(title=letters[1:7], misc="X", stringsAsFactors = FALSE)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59175641

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档