文章/答案/技术大牛

发布

社区首页 >问答首页 >Python深度学习查找重复项

问Python深度学习查找重复项
EN

Stack Overflow用户

提问于 2016-06-30 16:58:31

回答 5查看 753关注 0票数 1

我想尝试用Python学习深度学习。对于一个有用的场景，我想到的第一件事就是重复检查。

假设您有一个包含姓名、地址、电话和电子邮件的customer表，并希望插入新客户。例如：

In Table:
Max Test,Teststreet 5, 00642 / 58458,info@max.de
To Insert:
Max Test, NULL, (+49)0064258458, test@max.de

这应该被识别为重复的条目。

已经有这个用例的教程了吗？或者，深度学习有可能实现吗？

python

deep-learning

回答 5

Stack Overflow用户

发布于 2016-06-30 17:40:42

重复匹配是相似匹配的一种特例。您可以将输入要素定义为单个字符或字段，然后训练您的网络。这是一个二分类问题(真/假)，除非你想要一个相似度得分(95%匹配)。网络应该能够了解到标点符号和空格是无关紧要的，并且至少有一个字段的“或函数”匹配才能产生真正的肯定。

听起来像是一个相当简单的深度学习案例。

我不知道有什么具体的教程，但我试着给你一些关键字来寻找。

票数 1

Stack Overflow用户

发布于 2019-10-02 15:15:25

您可以使用duplicates=dataset.duplicated()

它将返回所有重复的行

然后：

print(sum(duplicates))

要打印重复行的计数，请执行以下操作。

票数 0

Stack Overflow用户

发布于 2019-10-03 04:54:09

在您的例子中，查找数字和类别数据的重复项应该更简单。当它是自由文本时，问题就出现了。我认为你应该先尝试一下模糊匹配技术。Python中有一个很好的距离度量标准，称为Levenshtein距离。计算距离的库是python-Levenshtein。这是相当快的。如果你想进一步改进，你可以使用深度学习算法，比如RNN，LSTM等，这些算法对文本数据很好。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38118382

复制

相似问题

问Python深度学习查找重复项
EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python深度学习查找重复项EN

回答 5

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python深度学习查找重复项
EN