首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Apache Tika从DjVu中提取文本

使用Apache Tika从DjVu中提取文本
EN

Stack Overflow用户
提问于 2018-09-06 01:00:20
回答 1查看 236关注 0票数 1

我正在使用Apache Tika来读取OCR文件。用PDF文件可以工作,但用djvu就有问题了。从1.14版本开始,Tika似乎支持Djvu。有什么办法解决这个问题吗?

代码语言:javascript
复制
D:\java -jar tika-app-1.18.jar -eUTF-8 test.djvu

返回

代码语言:javascript
复制
sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: J2KImageReader not loaded. JPEG2000 files will not be processed.
See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
for optional dependencies.

sep 05, 2018 6:38:59 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
WARNING: org.xerial's sqlite-jdbc is not loaded.
Please provide the jar on your classpath to parse sqlite files.
See tika-parsers/pom.xml for the correct version.

    <?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"
    >
    <head>
    <meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
    <meta name="resourceName" content="test.djvu"/>
    <meta name="Content-Length" content="23038658"/>
    <meta name="Content-Type" content="image/vnd.djvu"/>
    <title/>
    </head>
    <body/></html>
EN

回答 1

Stack Overflow用户

发布于 2021-05-12 22:00:06

我刚刚检查了当前的(1.26)源。似乎从1.14开始,Apache Tika就能够检测djvu头并报告该文件是djvu文档。这就是它所做的:

代码语言:javascript
复制
    <meta name="resourceName" content="test.djvu"/>
    <meta name="Content-Length" content="23038658"/>
    <meta name="Content-Type" content="image/vnd.djvu"/>

输出中的其他错误和警告与djvu无关。

Apache Tika没有针对djvu的解析器,因此除了文件类型检测之外,不能做更多的事情。从1.14开始,没有任何关于djvu支持的改变。因此,Apache Tika对于djvu是无用的。有人可能认为它根本不支持这种格式。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52190186

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档