我使用OCR读取难以辨认的表格数据。来自OCR的数据包含大量的排印和错误提取的项。应该从表中提取正确的数据结构的定义。我的任务是找到一个过程来清理来自OCR的数据并提取尽可能多的有用的数据点。例如:
在数据中,我希望看到以下数据点:
高度-以米表示的0.01至10.0范围内的十进制数值 宽度-以米表示的0.01至10.0范围内的十进制值 权重-以公斤表示的5至50范围内的整数值 颜色字符串,值为“红色”、“黄色”或“橙色”。 ..。等。
我从OCR得到:
neiont: 1.2 weion: 14 ko 欧洛威: veHou
鉴于上述限制,我应该能够将OCR输出解析为:
身高: 12.5米 体重: 14公斤 颜色:黄色
您能建议一个通用的算法、技术或优化过程,或者甚至可以使用现成的库来处理这一任务吗?
发布于 2016-11-01 17:25:25
这是个很高的要求!可能超出了它的范围。更多的是一项可申请专利的发明。
有很多事情需要考虑。首先,你怎么知道G应该是5,而不是不封闭的6?是的,你的眼睛能看出来,但教电脑这才是OCR。
更别提写得不好的7被解释为“我”了。
至少这些颜色只有三个可能的值。
https://stackoverflow.com/questions/40365201
复制相似问题