我正在使用Apache Tika解析文档,并生成文档的纯文本版本和HTML预览。如果我调用两次parse函数并传入两个单独的ContentHandler,我就可以很好地生成这两个函数-这对于纯文本文档非常有效。但是当我获得需要使用tesseract进行OCR的文档时,这就有点问题了--调用parse函数两次是非常浪费的,因为它也会执行两次OCR (可能需要一分钟左右)。
我知道我可以编写自己的ContentHandler,但我想知道是否有人知道这方面的开箱即用解决方案?非常感谢!
发布于 2020-05-22 07:36:39
好消息- Apache Tika为此提供了一些开箱即用的功能!
只需创建您的2+实际内容处理程序,将它们传递给constructor of TeeContentHandler,然后在进行解析时将TeeContentHandler传递给Tika
https://stackoverflow.com/questions/61938849
复制相似问题