我想将扫描的pdf文件转换为可文本搜索的pdf文件。我想给出一个输入作为扫描的PDF,然后我的预期输出是可搜索的PDF。
有几个工具,给我们的文本作为输出从扫描的pdf文件,但我想文本可搜索的pdf文件作为输出,而不仅仅是文本。
我搜索了一下,找到了一个解决方案here,但我的生产服务器是亚马逊centos,这个工具的安装只适用于ubuntu,不适用于亚马逊centos。
如果需要的话,我已经准备好付款了。请帮助我给任何开放源代码的网络api或付费网络api服务的链接,或任何工具,可以转换为文本搜索的pdf文件。
我在我的web应用程序中使用PHP语言。
发布于 2017-07-10 22:49:22
有几个商业web API服务可以将扫描的PDF (或扫描的图像)转换为可搜索的PDF。在这些中,我建议尝试一下ABBYY's Cloud OCR SDK。他们已经在OCR领域工作了几十年,并使用自己的OCR引擎,根据我的观察和从其他人那里听到的情况,OCR引擎往往比基于其他技术(例如Tesseract)的API提供更好的OCR结果。
https://stackoverflow.com/questions/44991352
复制相似问题