我使用了find命令并创建了一个名为Duplicates.txt的文件,其中包含一堆图像的md5sums。
如何在文件中找到重复的MD5,然后使用它们从归档中删除重复的MD5?
编辑:我不能使用fdupes。
发布于 2015-11-24 05:21:04
sort Duplicates.txt|uniq -c|grep -v '^ *1 '发布于 2015-11-24 06:36:43
假设您以类似如下的方式创建了文件Duplicates:
find ./dupimgs -type f -print0 | xargs -0 sha1sum > dupes.txt然后,您可以很容易地提取具有以下一行代码的唯一文件:
sort dupes.txt | uniq --check-chars=40 --count | cut -d' ' -f 10这些是您想要保留的文件。我建议将它们移到另一个目录中,然后删除现在充满副本的目录:
sort dupes.txt | uniq --check-chars=40 --count | cut -d' ' -f 10 | xargs -I {} mv {} ./originals
rm -rf ./dupimgs备注:我使用的是sha1sum而不是md5sum。这意味着摘要的长度将会不同。对于sha1sum,它是40个字符。对于md5sum,it's 32 hexadecimal digits。因此,您需要更改上述命令中的40,使其与您所使用的任何散列函数返回的十六进制字符串的长度相匹配。
https://stackoverflow.com/questions/33880787
复制相似问题