我注意到Google DOCUMENT_TEXT_DETECTION大约需要15秒才能检测到一个PDF页面https://cloud.google.com/vision/docs/pdf。
但是,如果我提交与JPG相同的PDF页面,检测文本https://cloud.google.com/vision/docs/detecting-fulltext所需的时间不到3秒。
我使用了这里提供的代码(C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp
我注意到,下面的代码行需要大约15秒的时间,即检测到PDF中的所有文本并将其保存到gsBucket operation.PollUntilCompleted();中
我想知道我还能做些什么来加速这个过程,或者这是我所期望的?
发布于 2019-08-26 21:27:43
您可以在本Google组线程中找到您的询问的答案。总结如下:
脱机批处理API的设计并不是以较短的运行时间为第一优先级。相反,它的目的是根据配额限制为大量的多页PDF/TIFF文件提供调度。因此,与其逐个发送PDF/TIFF文件并等待每个文件的成功,通常的使用方法是一次或连续地发送尽可能多的PDF/TIFF文件,跟踪每个操作id以获得每个PDF/TIFF处理的最终结果。
小批量在线处理评论中提到的特性似乎还不能在C#客户端库中使用。解决办法是直接调用REST,或者为不同的语言使用客户端库。
https://stackoverflow.com/questions/56213065
复制相似问题