我试图使用Apache集成在ManifoldCF上提取PDF的文本内容,以便在我的笔记本电脑上在Elasticsearch服务器中摄取一些PDF文件。
在正确创建Tika转换器并在我的工作中配置它之后,我看到ES上的生成字段"_content“中填充了文件的二进制编码,而不是文本。
我也看到了这样的情况:Extract file content with ManifoldCF,但(自2015年以来)仍未给出答案。
有人能帮我吗?
谢谢!
发布于 2018-07-22 20:23:44
在弹性搜索的输出连接器中,您为内容字段指定的字段名是什么?
请提供一个字段名以及最大文档大小。
https://stackoverflow.com/questions/47328107
复制相似问题