目前,我正在使用tika-app-1.16.jar来OCR我的PDF(与Tesseract相结合):java -jar tika-app-1.16.jar /tmp/testing/input.pdf
但是,在默认情况下,它只支持英语。我想找到一种方法来传递一种不同的语言。
关于文件:
当使用OCR解析器时,Tika将使用以下默认设置:
要更改这些设置,可以修改tika-parser/src/main/resources/org/apache/tika/parser/ocr,中现有的TesseractOCRConfig.properties文件,也可以通过创建自己的文件并将其放置在类路径上的org/apache/tika/TesseractOCRConfig.properties/ocr包中来重写它。
值得注意的是,在使用一个可执行的-jar时,无论是tika应用程序还是tika服务器-jar,都需要您在不使用-jar命令的情况下执行它们。例如,以下内容分别用于tika-app或tika-server:
java /path/to/your/classpath:/path/to/tika-app-X.X.jar -cp org.apache.tika.cli.TikaCLI
java /path/to/your/classpath:/path/to/tika-server-1.7-SNAPSHOT.jar -cp org.apache.tika.server.TikaServerCli
和
对于Tika App的用户,除了sytem属性和环境变量之外,还可以使用- Config = Tika -config.xml选项来选择要使用的不同的Tika Config XML文件。 对于Tika Server的用户,除了sytem属性和环境变量之外,还可以使用-c tika-config.xml或- Config tika-config.xml选项来选择要使用的不同的Tika Config XML文件。
但是,我还没有找到可以改变Tesseract OCR使用的语言的tika-config.xml示例。有什么例子吗?
发布于 2018-07-01 11:47:37
我正在使用下一个“拐杖”--用相同名称的bash脚本替换原始的tesseract文件,替换运行参数=)
My /usr/bin/tesseract文件:
#!/bin/sh
args=$@
args=${args/eng/rus} #replace eng => rus
export TESSDATA_PREFIX=/usr/share/tesseract/
# tesseract_ori <-- original tesseract
/usr/bin/tesseract_ori $args >> /tmp/tess.log 2>&1https://stackoverflow.com/questions/47475253
复制相似问题