文章/答案/技术大牛

发布

问Google Vision OCR数据表单
EN

Stack Overflow用户

提问于 2018-09-14 14:58:38

回答 2查看 867关注 0票数 2

我正在探索Google Vision API for OCR。我们有很多表格是由计算机生成并由用户填写的。比如医疗报告和挂号表。我们需要处理这些图像，并从中提取字符。我已经尝试过Google Vision API，它在计算机生成表单的情况下工作得很好，但是手工填写的表单会产生问题。就像在y轴稍高一点的地方用数据填充表单一样，单词被认为是上一行/下一行。如下所示是输出

Study Contact Name:
Test

期望的

Study Contact Name: Test

The Form used

代码参考：https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java

有没有一种方法可以把它放在一行中，或者理解它是否是该行的一部分？

是否有其他API可以在此场景中提供帮助？

ocr

google-vision

回答 2

Stack Overflow用户

发布于 2018-09-14 16:09:07

“任何其他可以在这种情况下提供帮助的API”，如果你是指OCR API，我不认为任何API在手写文档上表现良好，或者至少不会比Google好很多。

无论如何，我个人使用的一种可能的方法是创建您自己的方法来影响一行字母/单词。

这样，您就可以控制单词之间的距离可以被视为相同的“线”。

Google API为您提供识别出的每个字母的X和Y位置信息。因此，您可以简单地迭代所有字母或单词，如果它们是Y位置的>=或<= (例如2个像素)，则将它们包含在同一行中。

票数 0

Stack Overflow用户

发布于 2021-05-12 01:23:21

对于你来说，我可能来得太晚了，但既然我带着类似的问题来到这里，我就分享我的发现：

谷歌的API现在比

好多了，可以识别手写表格。至少在我的测试中，它工作得很好：Google Vision API。问题是识别表单的结构。我不知道如何告诉Google去查找表，或者查找特定的字段。
我发现了一个您可能也会感兴趣的很有前途的服务：Azure Form recognizer

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52326489

复制

相似问题

问Google Vision OCR数据表单
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Google Vision OCR数据表单EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Google Vision OCR数据表单
EN