首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从tika-python lib设置TIKA_SERVER_ENDPOINT

如何从tika-python lib设置TIKA_SERVER_ENDPOINT
EN

Stack Overflow用户
提问于 2019-07-01 03:20:20
回答 1查看 1K关注 0票数 0

https://github.com/chrismattmann/tika-python上的优秀lib tika-python文档中显示,可以将tika_server.jar文件设置为避免每次使用算法时都要下载。有没有人这样做了,可以发布配置?

第一次使用该算法时,会下载tika_server.jar,以便库可以使用它。我想通过在本地设置文件来避免这种下载。

从PDF中提取文本

代码语言:javascript
复制
def extraiPDF(f):
    resultado = []
    tika.TikaClientOnly = True
    raw = parser.from_file(f)
    metadados = raw["metadata"]
    conteudo  = raw["content"] 
    conteudo  = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
    resultado.append(conteudo)
    resultado.append(metadados)
    return resultado
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-02-04 21:55:34

要在下载tika服务器后运行它,请执行以下bash脚本。

代码语言:javascript
复制
#!/bin/bash

TIKA_PORT=9998
TIKA_HOST=localhost
CURRENT_USER=$(whoami) 
TIKA_JAR_URL="http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar"
TIKA_WORKSPACE=$HOME/tika
TIKA_FILE_NAME="tika_server.jar"

echo -e "Current user: $CURRENT_USER"

if [ ! -f $TIKA_WORKSPACE/$TIKA_FILE_NAME ]; then
    echo -e "Downloading tika-server.jar"

    if [ ! -d "$TIKA_WORKSPACE" ]; then
        echo -e "making tika workspace"
        mkdir $TIKA_WORKSPACE
    fi

    wget -c $TIKA_JAR_URL -O $TIKA_WORKSPACE/$TIKA_FILE_NAME 
fi

echo -e "## Setting environment vars"

export TIKA_SERVER_ENDPOINT="http://$TIKA_HOST:$TIKA_PORT"
echo -e "TIKA_SERVER_ENDPOINT to $TIKA_SERVER_ENDPOINT"

export TIKA_CLIENT_ONLY=True
echo -e "TIKA_CLIENT_ONLY to $TIKA_CLIENT_ONLY"

echo -e "## Starting tika server on: $TIKA_WORKSPACE"
cd $TIKA_WORKSPACE

java -jar tika_server.jar -h $TIKA_HOST
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56827440

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档