首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Tika解析器/ Java检测pdf是否为扫描文档

如何使用Tika解析器/ Java检测pdf是否为扫描文档
EN

Stack Overflow用户
提问于 2017-02-11 00:09:26
回答 1查看 1.9K关注 0票数 0

我正在尝试从pdf文件中提取文本。但在某些情况下,pdf文件是硬文档的扫描副本。

有没有办法可以找出给定的pdf文件是扫描过的文件还是普通的pdf文件?

EN

回答 1

Stack Overflow用户

发布于 2017-02-11 01:31:43

可能存在重复的Check if a PDF file is a scanned one

无论如何-最新版本的Tika可以在尝试内容提取之前选择性地使用Tesseract to OCR图像-如果您正在使用它,并且想知道Tika是如何解析文档的,您可以检查元数据:除了通常的org.apache.tika.parser.pdf.PDFParser之外,PDFParser还将org.apache.tika.parser.ocr.TesseractOCRParser添加到X-Parsed-By元数据关键字中。

如果你想在运行Tika之前决定是否运行自己的光学字符识别处理,你可能需要对PDF进行预处理(例如PDF图像/其他一些命令行工具,或基于PDFBox的解决方案),以确定它是否只包含整页图像(或覆盖页面的较小图像),没有文本运算符,然后可能会尝试对它们进行分类,看看它们是否需要OCRing。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42163776

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档