首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >空解析器和Tika服务器模式

空解析器和Tika服务器模式
EN

Stack Overflow用户
提问于 2020-11-03 03:35:52
回答 1查看 239关注 0票数 0

我很难理解解析器是如何加载到Tika中的。从他们的文档中可以看出,Tika-app预装在解析器(https://tika.apache.org/1.17/gettingstarted.html)中。但是,当我运行此命令来启动服务器时

代码语言:javascript
复制
    ./.java-buildpack/open_jdk_jre/bin/java -jar ./lib/tika-app-1.24.1.jar -s --port ${PORT}

    2020-11-02T13:30:26.04-0600 [APP/PROC/WEB/0] ERR Nov 02, 2020 7:30:26 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
   2020-11-02T13:30:26.04-0600 [APP/PROC/WEB/0] ERR WARNING: J2KImageReader not loaded. JPEG2000 files will not be processed.
   2020-11-02T13:30:26.04-0600 [APP/PROC/WEB/0] ERR See https://pdfbox.apache.org/2.0/dependencies.html#jai-image-io
   2020-11-02T13:30:26.04-0600 [APP/PROC/WEB/0] ERR for optional dependencies.
   2020-11-02T13:30:26.53-0600 [APP/PROC/WEB/0] ERR Nov 02, 2020 7:30:26 PM org.apache.tika.config.InitializableProblemHandler$3 handleInitializableProblem
   2020-11-02T13:30:26.53-0600 [APP/PROC/WEB/0] ERR WARNING: org.xerial's sqlite-jdbc is not loaded.
   2020-11-02T13:30:26.53-0600 [APP/PROC/WEB/0] ERR Please provide the jar on your classpath to parse sqlite files.
   2020-11-02T13:30:26.53-0600 [APP/PROC/WEB/0] ERR See tika-parsers/pom.xml for the correct version.
   2020-11-02T13:30:26.80-0600 [APP/PROC/WEB/0] OUT Successfully started tika-app's server on port: 8080
   2020-11-02T13:30:26.80-0600 [APP/PROC/WEB/0] ERR WARNING: The server option in tika-app is deprecated and will be removed
   2020-11-02T13:30:26.80-0600 [APP/PROC/WEB/0] ERR by Tika 2.0 if not shortly after Tika 1.14.
   2020-11-02T13:30:26.80-0600 [APP/PROC/WEB/0] ERR Please migrate to the JAX-RS tika-server package.
   2020-11-02T13:30:26.80-0600 [APP/PROC/WEB/0] ERR See https://wiki.apache.org/tika/TikaJAXRS for usage.
   2020-11-02T13:31:25.66-0600 [HEALTH/0] ERR Failed to make HTTP request to '/version' on port 8080: timed out after 1.00 seconds
   2020-11-02T13:31:25.66-0600 [CELL/0] ERR Timed out after 1m0s: health check never passed.

我有最新的tika版本1.24.1。他们的文档提到了下载tika-server并在运行时传递类路径以指向tika-parsers.jar (https://cwiki.apache.org/confluence/display/TIKA/Troubleshooting+Tika#TroubleshootingTika-ParsersMissing),但是我在任何地方都找不到parsers.jar文件。我使用openjdk-jre-1.8.0来运行它。

EN

回答 1

Stack Overflow用户

发布于 2020-11-10 17:00:11

默认情况下,解析器应该捆绑在一起。服务器模式下的Tika App (-s)是基于socket的服务器。您可以通过使用netcat并查看是否得到响应来确认它是否正常工作:

代码语言:javascript
复制
nc localhost 8080 -q2 < test.pdf

要在Python中使用它,您需要编写定制代码,打开套接字并发送输入,发送SHUT_WR,然后读回输出。

如果你正在使用tika-python库,它应该使用tika-server JAR中的Tika Server,而不是tika-app JAR。它有一些帮助器设置,因此您可以指向JAR,或者您可以托管自己的实例(自运行或docker)并为其提供URL。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64652188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档