首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >按行比较两个文件,并从第一个文件中删除重复项

按行比较两个文件,并从第一个文件中删除重复项
EN

Stack Overflow用户
提问于 2016-05-28 19:46:11
回答 4查看 16.5K关注 0票数 6

问题:

  1. 需要比较两个文件,
  2. 从第一个文件中删除副本
  3. 然后将file1的行附加到file2

示例演示

假设这两个文件是test1和test2。

代码语言:javascript
复制
$ cat test2
www.xyz.com/abc-2
www.xyz.com/abc-3
www.xyz.com/abc-4
www.xyz.com/abc-5
www.xyz.com/abc-6

而test1是

代码语言:javascript
复制
$ cat test1
www.xyz.com/abc-1
www.xyz.com/abc-2
www.xyz.com/abc-3
www.xyz.com/abc-4
www.xyz.com/abc-5

比较test1与test2并从测试1中删除重复项

所需结果:

代码语言:javascript
复制
$ cat test1
www.xyz.com/abc-1

然后将这些test1数据添加到test2中

代码语言:javascript
复制
$ cat test2
www.xyz.com/abc-2
www.xyz.com/abc-3
www.xyz.com/abc-4
www.xyz.com/abc-5
www.xyz.com/abc-6
www.xyz.com/abc-1

解决方案尝试:

代码语言:javascript
复制
join -v1 -v2 <(sort test1) <(sort test2)

导致这一结果(这是错误的输出)

代码语言:javascript
复制
$ join -v1 -v2 <(sort test1) <(sort test2)
www.xyz.com/abc-1
www.xyz.com/abc-6

我尝试过的另一个解决方案是:

代码语言:javascript
复制
fgrep -vf test1 test2

结果什么都没有。

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2016-05-28 20:30:47

用awk:

代码语言:javascript
复制
% awk 'NR == FNR{ a[$0] = 1;next } !a[$0]' test2 test1
www.xyz.com/abc-1

细目:

代码语言:javascript
复制
NR == FNR { # Run for test2 only
  a[$0] = 1 # Store whole line as key in associative array
  next      # Skip next block
}
!a[$0]      # Print line from test1 that are not in a
票数 8
EN

Stack Overflow用户

发布于 2016-05-28 19:59:05

从test1中删除行,因为它们在test2中:

代码语言:javascript
复制
$ grep -vxFf test2 test1
www.xyz.com/abc-1

若要覆盖test1:

代码语言:javascript
复制
grep -vxFf test2 test1 >test1.tmp && mv test1.tmp test1

将新的test1附加到test2的末尾:

代码语言:javascript
复制
cat test1 >>test2

grep选项

grep通常会打印匹配的线条。-v告诉grep做相反的事情:它只打印不匹配的行。

-x告诉grep做全线匹配.

-F告诉grep我们使用的是固定字符串,而不是正则表达式。

-f test2告诉grep从test2文件读取那些固定的字符串,每行一个。

票数 11
EN

Stack Overflow用户

发布于 2016-05-28 21:04:09

1和2问题的解决方案。

代码语言:javascript
复制
diff test1 test2 |grep "<"|sed  's/< \+//g' > test1.tmp|mv test1.tmp test1

这是输出

代码语言:javascript
复制
$ cat test1
www.xyz.com/abc-1

三个问题的解决方案。

代码语言:javascript
复制
cat test1 >> test2

这是输出

代码语言:javascript
复制
$ cat test2
www.xyz.com/abc-2
www.xyz.com/abc-3
www.xyz.com/abc-4
www.xyz.com/abc-5
www.xyz.com/abc-6
www.xyz.com/abc-1
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37503186

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档