无论如何-最新版本的Tika可以在尝试内容提取之前选择性地使用Tesseract to OCR图像-如果您正在使用它，并且想知道Tika是如何解析文档的，您可以检查元数据:除了通常的org.apache.tika.parser.pdf.PDFParser之外，PDFParser还将org.apache.tika.parser.ocr.TesseractOCRParser添加到X-Parsed-By元数据关键字中。

如果你想在运行Tika之前决定是否运行自己的光学字符识别处理，你可能需要对PDF进行预处理(例如PDF图像/其他一些命令行工具，或基于PDFBox的解决方案)，以确定它是否只包含整页图像(或覆盖页面的较小图像)，没有文本运算符，然后可能会尝试对它们进行分类，看看它们是否需要OCRing。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42163776

复制

相似问题

问如何使用Tika解析器/ Java检测pdf是否为扫描文档
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Tika解析器/ Java检测pdf是否为扫描文档EN