开放源码优先,但没有必要。
我有Acrobat 8,并且非常喜欢OCR功能,它基本上可以在扫描的文档上放置一层不可见的OCR文本。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。
我要找的是一种自动化这个过程的方法。我目前有一些脚本,用于处理和归档扫描文件,并且正在寻找一些可以插入到这个批处理过程中的东西,以便以类似于我可以使用Acrobat的方式执行OCR。
欢迎所有建议,谢谢!
发布于 2009-08-14 18:19:06
我已经在一个公司文档原型项目中实现了这一点。扫描文件是一个tif文件(单页)。然后使用楔形创建单个tif的hocr文件。然后使用hocr2pdf输出PDF文件。如果多个扫描页面,我使用gs将PDF组合成一个PDF文档。工作真的很好,OCR足够好满足我们的需要,并且可以在任何PDF查看器中搜索。
发布于 2010-07-06 12:40:59
你看过WatchOCR吗?您可以从http://www.watchocr.com下载它,它是一个免费的、开放源码的OCR服务器,它可以从监视的文件夹或网络共享中将只显示图像的pdfs转换为文本可搜索的pdfs。
发布于 2009-08-14 18:26:00
我喜欢xeon回答的声音,尽管OCRopus听起来很有趣。
https://serverfault.com/questions/54349
复制相似问题