首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Awk删除重复项

使用Awk删除重复项
EN

Stack Overflow用户
提问于 2015-07-11 07:10:06
回答 1查看 202关注 0票数 1

我有两个文件new.csv和remove.txt。我正在使用AWK从生成的任何新的csv文件中使用主删除文件。这些文件是:

代码语言:javascript
复制
$ cat new.csv 

james,smith,bronx,2025555551
adam,stephenson,brooklyn,2025555552
anthony,jackson,queens,2025555553
mary,young,astoria,2025555554
marsha,peterson,madison,2025555555
angie,huff,belk,2025555556

然后就是:

代码语言:javascript
复制
$ cat remove.txt 

2025555550
2025555553
2025555555
2025555557
2025555558
2025555559

我的命令是:

代码语言:javascript
复制
$ awk -F, 'NR==FNR{remove[$4]++;next}!($4 in remove)' remove.txt new.csv > final.csv

这给了我与原始文件相同的结果,如下所示:

代码语言:javascript
复制
$ cat final.csv 

james,smith,bronx,2025555551
adam,stephenson,brooklyn,2025555552
anthony,jackson,queens,2025555553
mary,young,astoria,2025555554
marsha,peterson,madison,2025555555
angie,huff,belk,2025555556

我怎么才能得到这个?

代码语言:javascript
复制
$ cat final.csv 

james,smith,bronx,2025555551
adam,stephenson,brooklyn,2025555552
mary,young,astoria,2025555554
angie,huff,belk,2025555556
EN

回答 1

Stack Overflow用户

发布于 2015-09-15 20:35:37

Etan Reisner's解决方案:

代码语言:javascript
复制
awk -F, 'NR==FNR{remove[$1]++;next}!($4 in remove)' remove.txt new.csv

这个很好用。

对于任何对AWK了解较少的人来说,一个更详细、更程序化的解决方案是:

代码语言:javascript
复制
awk 'BEGIN {while((getline var < "remove.txt")>0) {remove[var]=0}; FS=","}
     {if(!($4 in remove)) {print $0}}' new.csv

在开始读取输入文件"new.csv“之前运行的BEGIN块将整个密钥文件"remove.txt”读入到一个关联数组中,该数组使用键作为删除键。它还将字段分隔符设置为",“,而不是默认的空格。主块一次读取一行输入文件,然后检查第四个(最后一个)字段是否出现在任何删除键中,否则打印。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31351650

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档