问为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？
EN

Stack Overflow用户

提问于 2018-06-25 22:24:19

回答 1查看 252关注 0票数 0

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档，它工作得很好，但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置，并使用现有代码从所有支持的格式中提取OCR文本。

现有的代码使用简单解析器来提取数据。谁能帮我解释一下，当我们要从包含扫描图像的图像或pdfs中提取数据时，为什么我们使用RecursiveParserWrapper而不是普通的解析器。

tesseract

apache-tika

回答 1

Stack Overflow用户

发布于 2018-06-26 20:50:42

RecursiveParserWrapper有3个好处。

在嵌入式documents

records中维护来自嵌入式documents

easier的元数据解析异常的堆栈跟踪，以确定来自主文档的内容和来自嵌入式docs/attachments

的内容

如果您不关心这些，那么您应该能够使用AutoDetectParser和RecursiveParserWrapper提取相同的文本。如果您在提取的文本中确实看到了不同之处，请在Tika的JIRA上打开门票。

还要注意，如果您使用的是旧版本的Tika (< 1.15)，则每次解析时都需要在ParseContext中为嵌入式文档提供解析器；如果在旧版本中不这样做，Tika就不会解析任何嵌入式文档。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51025789

复制

相似问题

问为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本？
EN