首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python深度学习查找重复项

Python深度学习查找重复项
EN

Stack Overflow用户
提问于 2016-06-30 16:58:31
回答 5查看 753关注 0票数 1

我想尝试用Python学习深度学习。对于一个有用的场景,我想到的第一件事就是重复检查。

假设您有一个包含姓名、地址、电话和电子邮件的customer表,并希望插入新客户。例如:

代码语言:javascript
复制
In Table:
Max Test,Teststreet 5, 00642 / 58458,info@max.de
To Insert:
Max Test, NULL, (+49)0064258458, test@max.de

这应该被识别为重复的条目。

已经有这个用例的教程了吗?或者,深度学习有可能实现吗?

EN

回答 5

Stack Overflow用户

发布于 2016-06-30 17:40:42

重复匹配是相似匹配的一种特例。您可以将输入要素定义为单个字符或字段,然后训练您的网络。这是一个二分类问题(真/假),除非你想要一个相似度得分(95%匹配)。网络应该能够了解到标点符号和空格是无关紧要的,并且至少有一个字段的“或函数”匹配才能产生真正的肯定。

听起来像是一个相当简单的深度学习案例。

我不知道有什么具体的教程,但我试着给你一些关键字来寻找。

票数 1
EN

Stack Overflow用户

发布于 2019-10-02 15:15:25

您可以使用duplicates=dataset.duplicated()

它将返回所有重复的行

然后:

print(sum(duplicates))

要打印重复行的计数,请执行以下操作。

票数 0
EN

Stack Overflow用户

发布于 2019-10-03 04:54:09

在您的例子中,查找数字和类别数据的重复项应该更简单。当它是自由文本时,问题就出现了。我认为你应该先尝试一下模糊匹配技术。Python中有一个很好的距离度量标准,称为Levenshtein距离。计算距离的库是python-Levenshtein。这是相当快的。如果你想进一步改进,你可以使用深度学习算法,比如RNN,LSTM等,这些算法对文本数据很好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38118382

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档