首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >5位数误读分析

5位数误读分析
EN

Data Science用户
提问于 2019-11-21 09:26:37
回答 1查看 70关注 0票数 2

与经典的“手写”意义上的数字识别无关,

以上免责声明,以避免这被计算为重复。

我有96个序列号的选择,以及>220个序列号的单独选择。在较大的集合中,通常存在较小的集合(但并不总是如此),但也有120个不正确的数字。

请看下面的例子-为了记录,我已经尽可能地匹配了.正确的数字是第一位的,“可能性”在右括号中:

21490 (21490,21400,21498,21499,21480,21488)

21491 (21401,21481,1401)

21492 (21492,21402)

这个集合提供了一个很好的例子,说明了我所看到的事物的类型:

  1. 数字同样被误读(0->9和8)
  2. 有时一个数字被完全遗漏了。
  3. 有时候正确的数字根本读不出来.

它不限于0,8s和9s,但这是最坏的,所以我想试着理解哪些数字字符是有问题的(给他们所有的分数),并建立一个模型,它接受一个数字,知道它可以是一个数字的列表,并给我它应该是什么数字,最好是一个有信心的度量。

以前有人这样做过,有什么想法吗?

EN

回答 1

Data Science用户

发布于 2019-11-21 14:41:09

第一步是找出候选号码与参考列表中的任何数字有多相似。我认为对于基于字符的字符串相似性度量(通常是Levenshtein编辑距离 )来说,这是一个完美的例子。

如果可能有几个匹配,可能会有第二个步骤,可以预测最有可能的匹配,也许根据数字的频率。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63526

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档