有人能帮我解决这个问题吗:目前我有1000个文本文件,每个文件都是100 do,但是有些文件是相似的或几乎相同的,我如何删除重复的文件?(最好使用python)我有一种方法,但不是很好。我数着课文中的单词,然后比较https://colab.research.google.com/drive/19L5iFC2D9fmhZJvZfFUoW1xiEwpeVXJP?usp=sharing,对不起,我的英语不好
发布于 2021-12-16 13:14:02
def remove_duplicates(dir):
unique = []
for filename in os.listdir(dir):
if os.path.isfile(filename):
filehash = md5.md5(file(filename).read()).hexdigest()
if filehash not in unique:
unique.append(filehash)
else:
os.remove(filename)将所有文件保存在一个目录中,并使用此代码删除重复的文件。
发布于 2021-12-16 13:16:01
因为它们是文本文件,所以我认为您应该将内容作为字符串读取,然后进行比较。如果您不关心时间,只需比较一个由one.Or去寻找一个工具,可以额外的令牌字符串。
这个文章可能对你有帮助。
计算相似度的距离,设置一个阈值来决定应该删除哪一个。
https://stackoverflow.com/questions/70379403
复制相似问题