我使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我已经设法用ResursiveParserWrapper而不是解析器解析包含图像的pdf文档,它工作得很好,但是客户端希望在其他地方完成与Tesseract OCR相关的所有配置,并使用现有代码从所有支持的格式中提取OCR文本。
现有的代码使用简单解析器来提取数据。谁能帮我解释一下,当我们要从包含扫描图像的图像或pdfs中提取数据时,为什么我们使用RecursiveParserWrapper而不是普通的解析器。
发布于 2018-06-26 20:50:42
RecursiveParserWrapper有3个好处。
在嵌入式documents
的内容
如果您不关心这些,那么您应该能够使用AutoDetectParser和RecursiveParserWrapper提取相同的文本。如果您在提取的文本中确实看到了不同之处,请在Tika的JIRA上打开门票。
还要注意,如果您使用的是旧版本的Tika (< 1.15),则每次解析时都需要在ParseContext中为嵌入式文档提供解析器;如果在旧版本中不这样做,Tika就不会解析任何嵌入式文档。
https://stackoverflow.com/questions/51025789
复制相似问题