。
以上免责声明,以避免这被计算为重复。
我有96个序列号的选择,以及>220个序列号的单独选择。在较大的集合中,通常存在较小的集合(但并不总是如此),但也有120个不正确的数字。
请看下面的例子-为了记录,我已经尽可能地匹配了.正确的数字是第一位的,“可能性”在右括号中:
21490 (21490,21400,21498,21499,21480,21488)
21491 (21401,21481,1401)
21492 (21492,21402)
这个集合提供了一个很好的例子,说明了我所看到的事物的类型:
它不限于0,8s和9s,但这是最坏的,所以我想试着理解哪些数字字符是有问题的(给他们所有的分数),并建立一个模型,它接受一个数字,知道它可以是一个数字的列表,并给我它应该是什么数字,最好是一个有信心的度量。
以前有人这样做过,有什么想法吗?
发布于 2019-11-21 14:41:09
第一步是找出候选号码与参考列表中的任何数字有多相似。我认为对于基于字符的字符串相似性度量(通常是Levenshtein编辑距离 )来说,这是一个完美的例子。
如果可能有几个匹配,可能会有第二个步骤,可以预测最有可能的匹配,也许根据数字的频率。
https://datascience.stackexchange.com/questions/63526
复制相似问题