首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一种给出OCR编辑表格数据结构的算法或库。

一种给出OCR编辑表格数据结构的算法或库。
EN

Stack Overflow用户
提问于 2016-11-01 17:18:26
回答 1查看 35关注 0票数 0

我使用OCR读取难以辨认的表格数据。来自OCR的数据包含大量的排印和错误提取的项。应该从表中提取正确的数据结构的定义。我的任务是找到一个过程来清理来自OCR的数据并提取尽可能多的有用的数据点。例如:

在数据中,我希望看到以下数据点:

高度-以米表示的0.01至10.0范围内的十进制数值 宽度-以米表示的0.01至10.0范围内的十进制值 权重-以公斤表示的5至50范围内的整数值 颜色字符串,值为“红色”、“黄色”或“橙色”。 ..。等。

我从OCR得到:

neiont: 1.2 weion: 14 ko 欧洛威: veHou

鉴于上述限制,我应该能够将OCR输出解析为:

身高: 12.5米 体重: 14公斤 颜色:黄色

您能建议一个通用的算法、技术或优化过程,或者甚至可以使用现成的库来处理这一任务吗?

EN

回答 1

Stack Overflow用户

发布于 2016-11-01 17:25:25

这是个很高的要求!可能超出了它的范围。更多的是一项可申请专利的发明。

有很多事情需要考虑。首先,你怎么知道G应该是5,而不是不封闭的6?是的,你的眼睛能看出来,但教电脑这才是OCR。

更别提写得不好的7被解释为“我”了。

至少这些颜色只有三个可能的值。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40365201

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档