首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Vision OCR数据表单

Google Vision OCR数据表单
EN

Stack Overflow用户
提问于 2018-09-14 14:58:38
回答 2查看 867关注 0票数 2

我正在探索Google Vision API for OCR。我们有很多表格是由计算机生成并由用户填写的。比如医疗报告和挂号表。我们需要处理这些图像,并从中提取字符。我已经尝试过Google Vision API,它在计算机生成表单的情况下工作得很好,但是手工填写的表单会产生问题。就像在y轴稍高一点的地方用数据填充表单一样,单词被认为是上一行/下一行。如下所示是输出

代码语言:javascript
复制
Study Contact Name:
Test

期望的

代码语言:javascript
复制
Study Contact Name: Test

The Form used

代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有一种方法可以把它放在一行中,或者理解它是否是该行的一部分?

是否有其他API可以在此场景中提供帮助?

EN

回答 2

Stack Overflow用户

发布于 2018-09-14 16:09:07

“任何其他可以在这种情况下提供帮助的API”,如果你是指OCR API,我不认为任何API在手写文档上表现良好,或者至少不会比Google好很多。

无论如何,我个人使用的一种可能的方法是创建您自己的方法来影响一行字母/单词。

这样,您就可以控制单词之间的距离可以被视为相同的“线”。

Google API为您提供识别出的每个字母的X和Y位置信息。因此,您可以简单地迭代所有字母或单词,如果它们是Y位置的>=或<= (例如2个像素),则将它们包含在同一行中。

票数 0
EN

Stack Overflow用户

发布于 2021-05-12 01:23:21

对于你来说,我可能来得太晚了,但既然我带着类似的问题来到这里,我就分享我的发现:

谷歌的API现在比

  1. 好多了,可以识别手写表格。至少在我的测试中,它工作得很好:Google Vision API。问题是识别表单的结构。我不知道如何告诉Google去查找表,或者查找特定的字段。
  2. 我发现了一个您可能也会感兴趣的很有前途的服务:Azure Form recognizer
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52326489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档