首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Bash文本处理

Bash文本处理
EN

Stack Overflow用户
提问于 2018-10-19 10:17:45
回答 2查看 101关注 0票数 0

我有三个文件:file1file2exlfile1file2都有两列内容。第一列在两个文件中是相同的。

我希望使用该列加入两个文件的内容。使用join命令很容易。但是exl文件有一个问题:它包含一些单词,我希望join命令忽略/删除这些单词。

对于join,有什么方法可以做到吗?还是应该使用awk呢?

file1:

代码语言:javascript
复制
A la  
B lb  
C lc  
D something  

file2:

代码语言:javascript
复制
A ba  
B bb  
C another  
D bd  

exl:

代码语言:javascript
复制
something  
nothing  

预期结果:

代码语言:javascript
复制
A la ba  
B lb bb  
C lc  
D bd  
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-10-19 17:21:50

连接之后,可以使用sed删除exl中的单词。诀窍是首先将所有被排除的单词放在一个管道分隔的行中,这是awk可以提供帮助的。

代码语言:javascript
复制
EXCLUDE=`awk '{if(NR>1){printf("\\\|")}; printf(" %s", $1)}' exl`
join -1 1 file1 file2 | sed "s/$EXCLUDE//"

首先,用awk将所有排除的单词放在一行中,并将输出赋值为EXCLUDE (用转义管道分隔,sed需要)。然后简单地加入并替换所有的排除词。删除所有排除词)。

还可以跳过临时变量,并在一行中执行此操作:

代码语言:javascript
复制
join -1 1 file1 file2 | sed "s/`awk '{if(NR>1){printf("\\\|")}; printf(" %s", $1)}' exl`//"
票数 0
EN

Stack Overflow用户

发布于 2018-10-19 10:33:38

代码语言:javascript
复制
gjoin -t $'\t' <(gjoin -t $'\t' -v 1 file1 exl) <(gjoin -t $'\t' -v 1 file2 exl)

(对于我的设置,安装了GNU的Mac,并带有选项卡分隔的值;根据您的情况更改。)

<(...)构造将命令的输出设置为外部命令行可以作为参数接受的虚拟文件。

-v 1参数对join的意思是:“打印第一个文件中无法连接的所有行”。

因此,gjoin -t $'\t' -v 1 file1 exl将尝试使用排除列表连接第一个文件,并且只打印那些不在排除列表中的文件。同样适用于file2

然后,我们将这两个负连接的输出转化为真正的连接。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52890400

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档