我正在探索Google Vision API for OCR。我们有很多表格是由计算机生成并由用户填写的。比如医疗报告和挂号表。我们需要处理这些图像,并从中提取字符。我已经尝试过Google Vision API,它在计算机生成表单的情况下工作得很好,但是手工填写的表单会产生问题。就像在y轴稍高一点的地方用数据填充表单一样,单词被认为是上一行/下一行。如下所示是输出
Study Contact Name:
Test期望的
Study Contact Name: Test代码参考:https://cloud.google.com/vision/docs/detecting-text#vision-text-detection-java
有没有一种方法可以把它放在一行中,或者理解它是否是该行的一部分?
是否有其他API可以在此场景中提供帮助?
发布于 2018-09-14 16:09:07
“任何其他可以在这种情况下提供帮助的API”,如果你是指OCR API,我不认为任何API在手写文档上表现良好,或者至少不会比Google好很多。
无论如何,我个人使用的一种可能的方法是创建您自己的方法来影响一行字母/单词。
这样,您就可以控制单词之间的距离可以被视为相同的“线”。
Google API为您提供识别出的每个字母的X和Y位置信息。因此,您可以简单地迭代所有字母或单词,如果它们是Y位置的>=或<= (例如2个像素),则将它们包含在同一行中。
发布于 2021-05-12 01:23:21
对于你来说,我可能来得太晚了,但既然我带着类似的问题来到这里,我就分享我的发现:
谷歌的API现在比
https://stackoverflow.com/questions/52326489
复制相似问题