文章/答案/技术大牛

发布

社区首页 >问答首页 >删除R中书目数据集中的所有重复实例

问删除R中书目数据集中的所有重复实例
EN

Stack Overflow用户

提问于 2019-12-04 12:04:14

回答 1查看 363关注 0票数 0

我有两个书目数据集A&B (.bib文件，WoS导出，完整记录和引用)。这两种方法都包含了相关和无关的结果。第一个数据集A已被清理，因此我将相关的结果A(r)和无关的结果A(i)作为两个不同的数据集(.bib文件)。第二个数据集B完全包含我的第一个数据集A。可视化我的两个数据集

目标：--我正在寻找一种方法，从我的第二个数据集B中删除不相关的结果A(i)，这是我已经在第一个数据集中识别的。

方法:如果我要合并数据集B & A(i)，我可以通过使用删除重复函数来跟踪B中不相关的结果A(i)，因为A(i)在B中会发生两次，但是这只会删除A(i)的重复项，而不是A(i)的所有实例。

删除重复内容的函数：

包装改造工具

匹配<- find_duplicates(data，match_variable = "title") data_unique <- extract_unique_references(数据，匹配)

包参考书目

duplicatedMatching(M，Field = "TI"，tol = 0.95)

·问题1:是否有一种方法可以删除通过查找/删除重复函数标识的所有重复实例(副本和原件)？

·问题2:是否有更好的方法从B中去除A(i)？即删除数据集中的所有重复实例。

·问题3:更普遍的问题是:我能否在我的数据集中搜索更多的特定书目数据(一份论文列表)并将其从该数据集中删除？

非常感谢你的帮助！

quanteda

bibliography

duplicates

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-12-04 13:00:59

您可以使用match在两个数据集中找到相同的title。

#remove Ai from B
B[-match(unique(Ai$title), B$title),]
#  title misc
#1     a    X
#2     b    X
#5     e    X
#7     g    X

#remove Ai and Ar from B
B[-match(unique(c(Ai$title, Ar$title)), B$title),]
#  title misc
#7     g    X

数据：

Ar <- data.frame(title=c("a", "b", "e"), misc="X", stringsAsFactors = FALSE)
Ai <- data.frame(title=c("d", "c", "f"), misc="X", stringsAsFactors = FALSE)
B <- data.frame(title=letters[1:7], misc="X", stringsAsFactors = FALSE)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59175641

复制

相似问题

问删除R中书目数据集中的所有重复实例
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除R中书目数据集中的所有重复实例EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除R中书目数据集中的所有重复实例
EN