我想尝试用Python学习深度学习。对于一个有用的场景,我想到的第一件事就是重复检查。
假设您有一个包含姓名、地址、电话和电子邮件的customer表,并希望插入新客户。例如:
In Table:
Max Test,Teststreet 5, 00642 / 58458,info@max.de
To Insert:
Max Test, NULL, (+49)0064258458, test@max.de这应该被识别为重复的条目。
已经有这个用例的教程了吗?或者,深度学习有可能实现吗?
发布于 2016-06-30 17:40:42
重复匹配是相似匹配的一种特例。您可以将输入要素定义为单个字符或字段,然后训练您的网络。这是一个二分类问题(真/假),除非你想要一个相似度得分(95%匹配)。网络应该能够了解到标点符号和空格是无关紧要的,并且至少有一个字段的“或函数”匹配才能产生真正的肯定。
听起来像是一个相当简单的深度学习案例。
我不知道有什么具体的教程,但我试着给你一些关键字来寻找。
发布于 2019-10-02 15:15:25
您可以使用duplicates=dataset.duplicated()
它将返回所有重复的行
然后:
print(sum(duplicates))
要打印重复行的计数,请执行以下操作。
发布于 2019-10-03 04:54:09
在您的例子中,查找数字和类别数据的重复项应该更简单。当它是自由文本时,问题就出现了。我认为你应该先尝试一下模糊匹配技术。Python中有一个很好的距离度量标准,称为Levenshtein距离。计算距离的库是python-Levenshtein。这是相当快的。如果你想进一步改进,你可以使用深度学习算法,比如RNN,LSTM等,这些算法对文本数据很好。
https://stackoverflow.com/questions/38118382
复制相似问题