首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Apache-Tika中一次解析可以运行两个ContentHandlers吗?

在Apache-Tika中一次解析可以运行两个ContentHandlers吗?
EN

Stack Overflow用户
提问于 2020-05-22 00:10:29
回答 1查看 52关注 0票数 1

我正在使用Apache Tika解析文档,并生成文档的纯文本版本和HTML预览。如果我调用两次parse函数并传入两个单独的ContentHandler,我就可以很好地生成这两个函数-这对于纯文本文档非常有效。但是当我获得需要使用tesseract进行OCR的文档时,这就有点问题了--调用parse函数两次是非常浪费的,因为它也会执行两次OCR (可能需要一分钟左右)。

我知道我可以编写自己的ContentHandler,但我想知道是否有人知道这方面的开箱即用解决方案?非常感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-22 07:36:39

好消息- Apache Tika为此提供了一些开箱即用的功能!

TeeContentHandler - Content handler proxy that forwards the received SAX events to zero or more underlying content handlers.

只需创建您的2+实际内容处理程序,将它们传递给constructor of TeeContentHandler,然后在进行解析时将TeeContentHandler传递给Tika

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61938849

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档