首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >免费的OCR软件,使PDF可搜索(与可搜索的文本在正确的地方)

免费的OCR软件,使PDF可搜索(与可搜索的文本在正确的地方)
EN

Software Recommendation用户
提问于 2014-04-20 11:30:51
回答 11查看 37.6K关注 0票数 72

是否有任何免费的OCR软件(用于Linux和/或Windows)可以像Acrobat那样将PDF扫描文档作为输入并输出可搜索的PDF?

使用可搜索的PDF格式,我的意思是OCRed文本在原始文本上是不可见的,可以用鼠标选择并复制。

我知道Linux上的gscan2pdf可以这样做,但是文本被放置在页面的左上角,而且太小了,与背景扫描页面上的文本完全不同步。这是因为gscan2pdf将整个页面提供给OCR引擎。它应该将图像分解成小图像,用单行文本或小段落发送到OCR软件。

EN

回答 11

Software Recommendation用户

回答已采纳

发布于 2014-06-30 16:03:06

允许您这样做的工具是undefined。免费版本将允许您以多种语言对文档进行OCR (您可以免费下载额外的语言包),并将OCR的文本添加为覆盖文本层,您可以从CTRL+F中复制并进行搜索。

  • 具有许多功能的快速PDF查看器
  • 快速OCR引擎(除非您选择最佳精度)
  • 很多选项的旁边都有PRO图标(只能在专业版上使用),但是您可以隐藏它们。
  • 颜色管理和自定义屏幕DPI设置
  • Windows仅适用于应用程序,它似乎不适用于葡萄酒(查看器工作,但OCR功能使其崩溃)

它所没有的:

  • OCR没有利用多核
  • OCR不检测字符样式(粗体、斜体)或复制函数丢失它们
  • 它不使用正确的罗马尼亚文 决裂学,但如果在编辑器中复制文本并执行搜索和替换,则可以修复:
票数 20
EN

Software Recommendation用户

发布于 2014-12-15 19:57:53

试试pdfsandwich。从手册上说:

pdf三明治生成“三明治”OCR pdf文件,即只包含图像(不包含文本)的pdf文件将被光学字符识别(OCR)处理,文本将被无形地“在”图像后面添加到每一页。Pdf三明治是一个命令行实用程序。如果您有一个扫描的pdf文件,例如这个文件:alice.pdf (这是您可能听说过的小说的第一章),请调用如下的pdf三明治:pdf三明治alice.pdf --它将生成一个文件alice_ocr.pdf,该文件看起来像原始文件,但识别的文本将放在扫描图像的后面。您可以立即进行全文搜索或选择文本区域。

另一种选择可能是OCRmyPDF

票数 19
EN

Software Recommendation用户

发布于 2014-07-22 16:11:52

较新版本的特塞尔 (2014年写这个的时间的3.03 RC版本)可以做到这一点:

  • 自由的,开放的和交叉的褶皱
  • 从3.03版本开始,可获得PDF输出
  • CLI软件
  • 多语言支持
  • 不幸的是,单一的图像输入,所以要制作一个完整的文档,必须创建一个批处理脚本来将每个页面图像转换为可搜索的PDF。在此之后,应该使用pdftk这样的工具将PDF页面组合成一个PDF。

这是命令:

代码语言:javascript
复制
tesseract -l <lang> input.tif output pdf
票数 14
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/3412

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档