首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除重复文件python

删除重复文件python
EN

Stack Overflow用户
提问于 2021-12-16 12:56:29
回答 2查看 169关注 0票数 0

有人能帮我解决这个问题吗:目前我有1000个文本文件,每个文件都是100 do,但是有些文件是相似的或几乎相同的,我如何删除重复的文件?(最好使用python)我有一种方法,但不是很好。我数着课文中的单词,然后比较https://colab.research.google.com/drive/19L5iFC2D9fmhZJvZfFUoW1xiEwpeVXJP?usp=sharing,对不起,我的英语不好

EN

回答 2

Stack Overflow用户

发布于 2021-12-16 13:14:02

代码语言:javascript
复制
def remove_duplicates(dir):
    unique = []
    for filename in os.listdir(dir):
        if os.path.isfile(filename):
            filehash = md5.md5(file(filename).read()).hexdigest()
            if filehash not in unique: 
                unique.append(filehash)
            else: 
                os.remove(filename)

将所有文件保存在一个目录中,并使用此代码删除重复的文件。

票数 0
EN

Stack Overflow用户

发布于 2021-12-16 13:16:01

因为它们是文本文件,所以我认为您应该将内容作为字符串读取,然后进行比较。如果您不关心时间,只需比较一个由one.Or去寻找一个工具,可以额外的令牌字符串。

这个文章可能对你有帮助。

计算相似度的距离,设置一个阈值来决定应该删除哪一个。

  1. pip安装python-Levenshtein
  2. 代码 进口利文希丁 距离= Levenshtein.distance("content1","content2")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70379403

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档