我和一个人一起工作,他有大约30,000张扫描过的电子原理图,其中包含.TIFF格式的打印(非手写)文本。许多示意图被扫描偏离了方向,但没有特定的模式(例如,有些是偏离方向90度,另一些是180度)。他每天只花30分钟旋转图像。
是否有任何应用程序(例如Acrobat )可以使用OCR自动旋转它们,以确保它们的文本朝右?我知道有一种方法可以通过命令行界面来实现,但是我真的很想找到一个带有GUI的应用程序。应用程序还必须批量工作(也就是说,我不必逐一查看每个文件)。我在一家大公司工作,所以成本并不像平时那样受人关注。该应用程序将在Windows 7上运行。
谢谢你的帮助。
发布于 2017-01-27 22:33:02
如果您希望开发自己的应用程序,那么您可以查看LEADTOOLS OCR SDK。使用LEADTOOLS库,您将能够自动旋转所有需要旋转的页面。在OCR操作期间,您可以调用AutoPreProcess()方法
AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null); 在要添加到文档的每个Ocr页上。以下是几行代码,将向您展示如何自动旋转页面。
// Create an instance of the engine
using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false))
{
// Start the engine using default parameters
ocrEngine.Startup(null, null, null, LEAD_VARS.OcrAdvantageRuntimeDir);
// Create an OCR document
using (IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument())
{
// Add this image to the document
IOcrPage ocrPage = ocrDocument.Pages.AddPage(tifFileName, null);
// Auto-preprocess it
ocrPage.AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null);
// Recognize it and save it as PDF
ocrPage.Recognize(null);
ocrDocument.Save(pdfFileName, DocumentFormat.Pdf, null);
}
}免责声明:我是本产品的员工。
发布于 2016-07-01 12:22:25
Acrobat将自动旋转文档,而OCR则不管当前方向如何(即使有些方向偏离方向90、180或270 ),都会纠正方向。如果不识别文档中的任何文本,则可能无法更正以下情况( 1)如果文档中有多个方向的文本
您可以使用Acrobat试用版https://acrobat.adobe.com/in/en/free-trial-download.html
使用步骤:
发布于 2017-03-07 11:58:21
请尝试pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr)和'-u‘选项的单个文件。
您可以使用一些CMD或BASH脚本获得批处理执行。
免责声明:我是pdf2pdfocr开发人员。
https://softwarerecs.stackexchange.com/questions/34291
复制相似问题