首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有办法从Google Cloud Vision OCR预测文档标题?

有没有办法从Google Cloud Vision OCR预测文档标题?
EN

Stack Overflow用户
提问于 2021-09-21 22:10:03
回答 2查看 70关注 0票数 1

我需要帮助的是一种方法,以预测从OCR文本,谷歌云视觉从pdf/jpg文件中提取的文档标题。

我有一个jpg file,我正在发送给Vision API,我得到了OCR文本。对于附加的图像,我如何以编程方式预测文档的标题是“钢琴姿态检查表”?

EN

回答 2

Stack Overflow用户

发布于 2021-09-22 02:00:51

使用Vision API ( TextAnnotation )检测文本时得到的响应结构类似于TextAnnotation ->页面->块(文本块、表块等) -> Paragraph -> Word -> Symbol。这些属性仅包括检测到的语言、检测到的换行符(空格、连字符、换行符)。因此,Vision API无法像文档的“标题”那样精确地进行预测。参见TextAnnotation reference

如果您想预测文档/图像中像"Title“一样具体。我建议使用AutoML Vision,在给定一组正确标记的文档/图像的情况下,您可以训练一个模型来预测“标题”。训练完成后,您可以发送预测请求来预测“标题”。

您可以参考此document获取有关如何准备数据集、训练模型和预测的示例。

票数 1
EN

Stack Overflow用户

发布于 2021-10-23 21:12:48

您想要“预测文档标题”。这里有两种可能的情况:

  1. 您想要根据文档中某处出现的标题本身来预测正确的文档标题,或者
  2. 您想要根据(OCR'd)内容来预测标题,因为文档没有/没有附带标题。

对于第一点,我同意Ricco的回应:你应该为你的应用程序构建一个自定义版本的Cloud Vision API,使用AutoML (好吧,AutoML Vision)来调整模型以满足你的需求,例如,从OCR文档中获取标题,无论它是寻找标题位置/位置,字体大小,等等。

更高级的是#2。您可能必须使用API的...使用Cloud Vision的光学字符识别(w/或w/o AutoML),然后通过Cloud Natural Language (或AutoML Natural Language,如果需要)使用NLU分析文本,如果文档没有附带,则可能会根据其内容自动生成标题。我相信在这种情况下,你的训练可能会倾向于监督学习,在你的训练数据中,你提供的标题与无标题的文档配对。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69276082

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档