我在python中使用tika从pdf中提取文本。但是,它在每次运行时都会下载.jar。这很耗时。
[MainThread ] [INFO ] Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar to /tmp/tika-server.jar.每次我运行代码时都会发生这种情况。有没有办法手动做一次,然后让tika每次都做呢?
发布于 2020-02-22 00:46:18
我知道这已经有一段时间了,你可能已经想出了一些办法,但对于像我这样仍在寻找解决方案的其他人,我想在提出问题的人展示他自己的functional aproach的时候建议其他话题。
此外,我注意到tika只在第一次运行时才需要互联网接入,所以,如果你在设置好所有东西后设法拒绝它的互联网接入,它就不会浪费时间下载新文件。
https://stackoverflow.com/questions/56713208
复制相似问题