我正在尝试从pdf文件中提取文本。但在某些情况下,pdf文件是硬文档的扫描副本。
有没有办法可以找出给定的pdf文件是扫描过的文件还是普通的pdf文件?
发布于 2017-02-11 01:31:43
可能存在重复的Check if a PDF file is a scanned one
无论如何-最新版本的Tika可以在尝试内容提取之前选择性地使用Tesseract to OCR图像-如果您正在使用它,并且想知道Tika是如何解析文档的,您可以检查元数据:除了通常的org.apache.tika.parser.pdf.PDFParser之外,PDFParser还将org.apache.tika.parser.ocr.TesseractOCRParser添加到X-Parsed-By元数据关键字中。
如果你想在运行Tika之前决定是否运行自己的光学字符识别处理,你可能需要对PDF进行预处理(例如PDF图像/其他一些命令行工具,或基于PDFBox的解决方案),以确定它是否只包含整页图像(或覆盖页面的较小图像),没有文本运算符,然后可能会尝试对它们进行分类,看看它们是否需要OCRing。
https://stackoverflow.com/questions/42163776
复制相似问题