我正在使用TIKA-app (v 1.23)进行一些测试,以便从输入文件中提取嵌入式资源,通过使用app在命令行中指定-z参数,这样做的效果很好。此参数启用嵌入式资源提取,并将资源写入工作目录。现在,我想使用基于TIKA-server的这个功能。但是,我在文档中还没有找到正确的方法,我想知道TIKA的服务器变体提供了这个选项吗?
那么,如何使用TIKA-server应用程序提取嵌入式资源呢?请注意,我找的不是嵌入式资源的内容,而是实际的二进制文件数据(我想将附件从输入文件中分离出来)
发布于 2020-11-12 03:23:43
的/unpack端点也提供了类似的功能。如果将其与X PDFExtractInlineImage头部设置为true相结合,它将执行等效的处理。
例如:
curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"将返回包含ZIP中所有图像的ZIP文件。
您可以阅读更多关于端点这里的信息。
https://stackoverflow.com/questions/59705993
复制相似问题