首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >阿帕奇ManifoldCF TIKA

阿帕奇ManifoldCF TIKA
EN

Stack Overflow用户
提问于 2017-11-16 11:08:38
回答 1查看 280关注 0票数 1

我试图使用Apache集成在ManifoldCF上提取PDF的文本内容,以便在我的笔记本电脑上在Elasticsearch服务器中摄取一些PDF文件。

在正确创建Tika转换器并在我的工作中配置它之后,我看到ES上的生成字段"_content“中填充了文件的二进制编码,而不是文本。

我也看到了这样的情况:Extract file content with ManifoldCF,但(自2015年以来)仍未给出答案。

有人能帮我吗?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2018-07-22 20:23:44

在弹性搜索的输出连接器中,您为内容字段指定的字段名是什么?

请提供一个字段名以及最大文档大小。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47328107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档