首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本?

为什么要使用RecursiveParserWrapper而不是解析器来从图像中提取文本?
EN

Stack Overflow用户
提问于 2018-06-25 22:24:19
回答 1查看 252关注 0票数 0

我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档,它工作得很好,但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置,并使用现有代码从所有支持的格式中提取OCR文本。

现有的代码使用简单解析器来提取数据。谁能帮我解释一下,当我们要从包含扫描图像的图像或pdfs中提取数据时,为什么我们使用RecursiveParserWrapper而不是普通的解析器。

EN

回答 1

Stack Overflow用户

发布于 2018-06-26 20:50:42

RecursiveParserWrapper有3个好处。

在嵌入式documents

  • records中维护来自嵌入式documents

  • easier的元数据解析异常的堆栈跟踪,以确定来自主文档的内容和来自嵌入式docs/attachments

的内容

如果您不关心这些,那么您应该能够使用AutoDetectParserRecursiveParserWrapper提取相同的文本。如果您在提取的文本中确实看到了不同之处,请在Tika的JIRA上打开门票。

还要注意,如果您使用的是旧版本的Tika (< 1.15),则每次解析时都需要在ParseContext中为嵌入式文档提供解析器;如果在旧版本中不这样做,Tika就不会解析任何嵌入式文档。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51025789

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档