我将扫描的PDF文件传递到Google文档AI OCR中。JSON响应(或者在使用Python时返回的文档对象)以结构化格式包含PDF的内容,正如所描述的这里。我也希望能够输出一个PDF文件(或者XML,如果更简单的话)。有这样的功能吗?任何关于可能的实现的提示都是非常感谢的。
注意:在我执行任务之前,PDF已经是另一个工具的OCRed了,但是质量不如文件AI OCR那么好。
谢谢
发布于 2021-04-20 15:50:06
如果有其他人在找这个分享。我找到了这个存储库gcv2hocr,它有一个脚本将Google响应(用于图像输入)转换为hOCR格式。然后可以将hOCR输出转换为其他格式,包括使用hocr-工具的PDF格式。
我想,将这段代码调整为与DocumentAI响应一起工作并不是很困难。
https://stackoverflow.com/questions/66988320
相似问题