是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF?
使用可搜索的PDF格式,我的意思是OCRed文本在原始文本上是不可见的,可以用鼠标选择并复制。
我知道Linux上的gscan2pdf可以这样做,但是文本被放置在页面的左上角,而且太小了,与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像,用单行文本或小段落发送到OCR软件。
发布于 2014-06-30 16:03:06
允许您这样做的工具是undefined。免费版本将允许您以多种语言对文档进行OCR (您可以免费下载额外的语言包),并将OCR的文本添加为覆盖文本层,您可以从CTRL+F中复制并进行搜索。
PRO图标(只能在专业版上使用),但是您可以隐藏它们。它所没有的:


发布于 2014-12-15 19:57:53
试试pdfsandwich。从手册上说:
pdf三明治生成“三明治”OCR pdf文件,即只包含图像(不包含文本)的pdf文件将被光学字符识别(OCR)处理,文本将被无形地“在”图像后面添加到每一页。Pdf三明治是一个命令行实用程序。如果您有一个扫描的pdf文件,例如这个文件:
alice.pdf(这是您可能听说过的小说的第一章),请调用如下的pdf三明治:pdf三明治alice.pdf --它将生成一个文件alice_ocr.pdf,该文件看起来像原始文件,但识别的文本将放在扫描图像的后面。您可以立即进行全文搜索或选择文本区域。
另一种选择可能是OCRmyPDF。
https://softwarerecs.stackexchange.com/questions/3412
复制相似问题