我看到一些电子书/论文显然是从他们的纸质版本中扫描出来的,但电子图书/论文中的文本却能惊人地被复制出来。我想直接扫描的版本一定是由一些光学字符识别软件处理的。
所以我想知道什么是推荐的光学字符识别软件?尤其是那些要么是Ubuntu的,要么是免费的?如果那些在Windows上要好得多,请告诉我。
我特别感兴趣的那些OCR,可以接受一个扫描的pdf文件作为输入,但仍然产生作为输出的另一个pdf文件看起来与输入一个,但其文本可复制。
谢谢和问候!
请每个答案限制一个软件。
发布于 2010-10-22 02:48:26
最初的引擎是在80年代后期由惠普和IBM开发的,但它已经被证明是我使用过的最好的眼科识别软件之一。它最近经历了许多更新引擎,并已成为市场上最全面的OCR工具之一。与大多数其他OCR工具相比,它可以轻松地将标准文档类型转换为文本(在文本匹配的90 %以上)。
以下是一个例子:
tesseract ScannedDocument.png out将产生一个名为out.txt的文件
发布于 2010-10-22 04:16:54
另一个应该能够做到这一点的项目是gscan2pdf。
sudo apt-get install gscan2pdf该项目还可以使用Tesseract以及其他开源OCR工具。
发布于 2010-10-22 02:49:38
我不知道任何OCR的Ubuntu,但对于Windows有一个有你需要的功能。那是ABBYY FineReader 这是一页,但它不是免费的
https://askubuntu.com/questions/8792
复制相似问题