文章/答案/技术大牛

发布

问删除重复文件python
EN

Stack Overflow用户

提问于 2021-12-16 12:56:29

回答 2查看 169关注 0票数 0

有人能帮我解决这个问题吗:目前我有1000个文本文件，每个文件都是100 do，但是有些文件是相似的或几乎相同的，我如何删除重复的文件？(最好使用python)我有一种方法，但不是很好。我数着课文中的单词，然后比较https://colab.research.google.com/drive/19L5iFC2D9fmhZJvZfFUoW1xiEwpeVXJP?usp=sharing，对不起，我的英语不好

python

duplicates

回答 2

Stack Overflow用户

发布于 2021-12-16 13:14:02

def remove_duplicates(dir):
    unique = []
    for filename in os.listdir(dir):
        if os.path.isfile(filename):
            filehash = md5.md5(file(filename).read()).hexdigest()
            if filehash not in unique: 
                unique.append(filehash)
            else: 
                os.remove(filename)

将所有文件保存在一个目录中，并使用此代码删除重复的文件。

票数 0

Stack Overflow用户

发布于 2021-12-16 13:16:01

因为它们是文本文件，所以我认为您应该将内容作为字符串读取，然后进行比较。如果您不关心时间，只需比较一个由one.Or去寻找一个工具，可以额外的令牌字符串。

这个文章可能对你有帮助。

计算相似度的距离，设置一个阈值来决定应该删除哪一个。

pip安装python-Levenshtein
代码进口利文希丁距离= Levenshtein.distance("content1"，"content2")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70379403

复制

相似问题

问删除重复文件python
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除重复文件pythonEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问删除重复文件python
EN