因此,我有一组包含文件名和相关编号的文本。目前的情况如下:
RR0.out -1752.142111
RR1.out -1752.141887
RR2.out -1752.142111
RR3.out -1752.140319
RR4.out -1752.140564
RR5.out -1752.138532
RR6.out -1752.138493
RR7.out -1752.138493
RR8.out -1752.138532我想要编写一个脚本,它将删除具有重复秒值的行。因此,产出将是:
RR0.out -1752.142111
RR1.out -1752.141887
RR3.out -1752.140319
RR4.out -1752.140564
RR5.out -1752.138532
RR6.out -1752.138493
RR8.out -1752.138532 我已经看到sort -u和uniq都用于这一点,但我不知道如何删除不完全相同的行(这些行可以用uniq而不是sort完成),也不能删除彼此不相邻的行(这些行可以用sort完成,而不能用uniq完成)。有人能给我一些建议吗?
到目前为止,下面的代码还没有给我想要的。
sort -t ' ' -k 2n file > file2
uniq -f 1 file2 > file3 发布于 2019-07-24 22:57:25
$ sort -uk2 file
RR6.out -1752.138493
RR8.out -1752.138532
RR5.out -1752.138532
RR3.out -1752.140319
RR4.out -1752.140564
RR1.out -1752.141887
RR0.out -1752.142111sort -u将对输出进行排序,只产生唯一的值,-k2将根据第二列进行排序/惟一化。
为了根据第一列中的文件名重新排序输出,可以将其转换回排序:
$ sort -uk2 file | sort -k1
RR0.out -1752.142111
RR1.out -1752.141887
RR3.out -1752.140319
RR4.out -1752.140564
RR5.out -1752.138532
RR6.out -1752.138493
RR8.out -1752.138532发布于 2019-07-24 23:00:25
如果您不坚持使用sort/uniq,那么:
$ awk '!seen[$2]++' file
RR0.out -1752.142111
RR1.out -1752.141887
RR3.out -1752.140319
RR4.out -1752.140564
RR5.out -1752.138532
RR6.out -1752.138493 (这与预期的输出不同,因为RR5.out -1752.138532和RR8.out -1752.138532仅通过尾随空格不同;awk将其视为分隔符的一部分,而不是第二个字段的一部分。)
https://unix.stackexchange.com/questions/531989
复制相似问题