首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何更改Tika传递给Tesseract OCR的语言参数?

如何更改Tika传递给Tesseract OCR的语言参数?
EN

Stack Overflow用户
提问于 2017-11-24 14:25:04
回答 1查看 1.5K关注 0票数 2

目前,我正在使用tika-app-1.16.jar来OCR我的PDF(与Tesseract相结合):java -jar tika-app-1.16.jar /tmp/testing/input.pdf

但是,在默认情况下,它只支持英语。我想找到一种方法来传递一种不同的语言。

关于文件:

当使用OCR解析器时,Tika将使用以下默认设置:

  • Tesseract安装路径= "“
  • 语言词典=“英语”
  • 页面分割模式= "1“
  • 最小文件大小=0
  • 最大文件大小= 2147483647
  • 超时= 120

要更改这些设置,可以修改tika-parser/src/main/resources/org/apache/tika/parser/ocr,中现有的TesseractOCRConfig.properties文件,也可以通过创建自己的文件并将其放置在类路径上的org/apache/tika/TesseractOCRConfig.properties/ocr包中来重写它。

值得注意的是,在使用一个可执行的-jar时,无论是tika应用程序还是tika服务器-jar,都需要您在不使用-jar命令的情况下执行它们。例如,以下内容分别用于tika-app或tika-server:

java /path/to/your/classpath:/path/to/tika-app-X.X.jar -cp org.apache.tika.cli.TikaCLI

java /path/to/your/classpath:/path/to/tika-server-1.7-SNAPSHOT.jar -cp org.apache.tika.server.TikaServerCli

对于Tika App的用户,除了sytem属性和环境变量之外,还可以使用- Config = Tika -config.xml选项来选择要使用的不同的Tika Config XML文件。 对于Tika Server的用户,除了sytem属性和环境变量之外,还可以使用-c tika-config.xml或- Config tika-config.xml选项来选择要使用的不同的Tika Config XML文件。

但是,我还没有找到可以改变Tesseract OCR使用的语言的tika-config.xml示例。有什么例子吗?

EN

回答 1

Stack Overflow用户

发布于 2018-07-01 11:47:37

我正在使用下一个“拐杖”--用相同名称的bash脚本替换原始的tesseract文件,替换运行参数=)

My /usr/bin/tesseract文件:

代码语言:javascript
复制
#!/bin/sh

args=$@
args=${args/eng/rus} #replace eng => rus 
export TESSDATA_PREFIX=/usr/share/tesseract/
# tesseract_ori <-- original tesseract 
/usr/bin/tesseract_ori $args >> /tmp/tess.log 2>&1
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47475253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档