首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从两个巨大的文本文件中提取匹配和不同

从两个巨大的文本文件中提取匹配和不同
EN

Stack Overflow用户
提问于 2013-06-26 01:12:04
回答 4查看 112关注 0票数 3

我有两个大的文本文件

代码语言:javascript
复制
file1:
aaa@email.com
bbb@email.com
ccc@email.com
ddd@email.com
...

file2:
abc@email.com
bbb@email.com
cnd@email.com
sds@email.com
...

我想显示以下内容:

  1. 将file1和file2之间的电子邮件匹配到file3
  2. file1给file4的不匹配电子邮件
  3. file2中的非匹配电子邮件( file5 )
EN

回答 4

Stack Overflow用户

发布于 2013-06-26 01:17:43

使用sortjoin。参见下面的bash示例,它利用了进程替换的优点。

代码语言:javascript
复制
join -o 1.1 <(sort file1) <(sort file2) > file3
join -o 1.1 -v 1 <(sort file1) <(sort file2) > file4
join -o 2.1 -v 2 <(sort file1) <(sort file2) > file5
票数 1
EN

Stack Overflow用户

发布于 2013-06-26 15:43:02

假设file1和file2都是排序的:

代码语言:javascript
复制
comm -12 file1 file2 > file3
comm -23 file1 file2 > file4
comm -13 file1 file2 > file5

假设它们没有排序并且您使用的是bash

代码语言:javascript
复制
comm -12 <(sort file1) <(sort file2) > file3
comm -23 <(sort file1) <(sort file2) > file4
comm -13 <(sort file1) <(sort file2) > file5
票数 1
EN

Stack Overflow用户

发布于 2013-06-26 15:46:23

另一种选择,使用comm代替。comm希望对输入进行排序,因此您可以事先(最有效)对文件进行排序,也可以动态排序。如果文件被排序了,

代码语言:javascript
复制
comm -12 file1 file2 > file3

将给出file1file2共有的行,并将它们放在file3中。如果它们没有排序(并且由于某种原因不能排序),则使用此版本向comm提供排序输入,而不更改文件:

代码语言:javascript
复制
comm -12 <(sort file1) <(sort file2) > file3

对于其他要求,要么:

代码语言:javascript
复制
comm -23 file1 file2 > file4
comm -13 file1 file2 > file5

代码语言:javascript
复制
comm -23 <(sort file1) <(sort file2) > file4
comm -13 <(sort file1) <(sort file2) > file5
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/17310039

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档