我可以访问我的图书馆的扫描仪,它可以创建“可搜索的PDF”。这些PDF显示扫描文档的确切图像,但是当您尝试选择包含文本的图像的一部分时,PDF中有一种隐藏的文本可以被选择。通过这种方式,您可以在扫描文档中复制和粘贴文本或搜索文本。这很有用。这是一个可怕的改进比原始扫描图像。我的mac上也有几个应用程序,可以从扫描文档或原始图像创建这种可搜索的PDF。
现在,任何使用过OCR的人都很明显,将图像转换为文本的过程并不是100%准确的,所以在某些地方搜索或复制的文本是不正确的。
因此,我搜索了相当一段时间来找到一个应用程序,它可以加载可搜索的PDF,并允许我修复隐藏的可搜索文本,而无需重新格式化或修改原始扫描图像。
有人知道有一个工具(或库API)允许这样做吗?
值得一提的是,我尝试了Acrobat的最新版本,但它似乎不允许我查看隐藏的可搜索文本,更不用说编辑它了。它确实允许我用它自己的OCR进程的结果来替换扫描图像,这样我就可以编辑和保存文档。但这会对我使用的任何扫描文件产生可怕的结果。它似乎是为编辑“本机PDF”而不是编辑扫描文档而设计的。
我也尝试过ABBYY FineReader没有运气。
发布于 2015-12-29 18:28:26
我正在使用ABBYY FineReader 12专业。(非开源)只需打开扫描的图像或扫描的pdf,然后按下验证文本(或Ctrl + F7),就会检查所有拼写错误或低自信的字符并修复它们。
该程序是非常好的,它显示了准确的位置,在图像/pdf更正和OCR猜测并排,以方便。它迭代了所有这些。
顺便说一句,我正在使用快捷方式来加快速度:Alt+Enter将未识别的单词添加到字典中。Ctrl+Delete跳过单词或确认,以防您修复它。
而不是将文档保存为一个pdf文件Menu:File>Save文档As> PDF文件,您可以在每个pdf阅读器上搜索它。保存的文件看起来与扫描的文件相同,但“后面”有文本。
奇怪的是你尝试了ABBYY却没有运气..。对我来说效果很好。也许你没试过专业版。
希望它能帮到你。
发布于 2020-07-03 23:27:17
这并不是从海报所追求的图像中创建可搜索的pdf,他想从一个已经可搜索的pdf开始,并修改它的文本(例如,因为错误地做出了可搜索的pdf,但后来发现了一个被忽略的识别错误,需要纠正)。我看不出有什么办法,也没有任何工具能帮助我做到这一点。
https://stackoverflow.com/questions/32914609
复制相似问题