使用Vision API ( TextAnnotation )检测文本时得到的响应结构类似于TextAnnotation ->页面->块(文本块、表块等) -> Paragraph -> Word -> Symbol。这些属性仅包括检测到的语言、检测到的换行符(空格、连字符、换行符)。因此，Vision API无法像文档的“标题”那样精确地进行预测。参见TextAnnotation reference。

如果您想预测文档/图像中像"Title“一样具体。我建议使用AutoML Vision，在给定一组正确标记的文档/图像的情况下，您可以训练一个模型来预测“标题”。训练完成后，您可以发送预测请求来预测“标题”。

您可以参考此document获取有关如何准备数据集、训练模型和预测的示例。

票数 1

Stack Overflow用户

发布于 2021-10-23 21:12:48

您想要“预测文档标题”。这里有两种可能的情况：

您想要根据文档中某处出现的标题本身来预测正确的文档标题，或者
您想要根据(OCR'd)内容来预测标题，因为文档没有/没有附带标题。

对于第一点，我同意Ricco的回应:你应该为你的应用程序构建一个自定义版本的Cloud Vision API，使用AutoML (好吧，AutoML Vision)来调整模型以满足你的需求，例如，从OCR文档中获取标题，无论它是寻找标题位置/位置，字体大小，等等。

更高级的是#2。您可能必须使用API的对...使用Cloud Vision的光学字符识别(w/或w/o AutoML)，然后通过Cloud Natural Language (或AutoML Natural Language，如果需要)使用NLU分析文本，如果文档没有附带，则可能会根据其内容自动生成标题。我相信在这种情况下，你的训练可能会倾向于监督学习，在你的训练数据中，你提供的标题与无标题的文档配对。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69276082

复制

相似问题

问有没有办法从Google Cloud Vision OCR预测文档标题？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有办法从Google Cloud Vision OCR预测文档标题？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有办法从Google Cloud Vision OCR预测文档标题？
EN