文章/答案/技术大牛

发布

社区首页 >问答首页 >一种给出OCR编辑表格数据结构的算法或库。

问一种给出OCR编辑表格数据结构的算法或库。
EN

Stack Overflow用户

提问于 2016-11-01 17:18:26

回答 1查看 35关注 0票数 0

我使用OCR读取难以辨认的表格数据。来自OCR的数据包含大量的排印和错误提取的项。应该从表中提取正确的数据结构的定义。我的任务是找到一个过程来清理来自OCR的数据并提取尽可能多的有用的数据点。例如：

在数据中，我希望看到以下数据点：

高度-以米表示的0.01至10.0范围内的十进制数值宽度-以米表示的0.01至10.0范围内的十进制值权重-以公斤表示的5至50范围内的整数值颜色字符串，值为“红色”、“黄色”或“橙色”。 ..。等。

我从OCR得到：

neiont: 1.2 weion: 14 ko 欧洛威: veHou

鉴于上述限制，我应该能够将OCR输出解析为：

身高: 12.5米体重: 14公斤颜色:黄色

您能建议一个通用的算法、技术或优化过程，或者甚至可以使用现成的库来处理这一任务吗？

algorithm

ocr

回答 1

Stack Overflow用户

发布于 2016-11-01 17:25:25

这是个很高的要求！可能超出了它的范围。更多的是一项可申请专利的发明。

有很多事情需要考虑。首先，你怎么知道G应该是5，而不是不封闭的6？是的，你的眼睛能看出来，但教电脑这才是OCR。

更别提写得不好的7被解释为“我”了。

至少这些颜色只有三个可能的值。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40365201

复制

相似问题

问一种给出OCR编辑表格数据结构的算法或库。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种给出OCR编辑表格数据结构的算法或库。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问一种给出OCR编辑表格数据结构的算法或库。
EN