腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(6)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用
apache-tika
和python从PDF中提取内联图像
我需要将PDF文档转换为XML或JSON格式,包括内联图像。from tika import parserprint(xml_data)<img src="embedded:image0.png" alt="image0.png"
浏览 1
提问于2019-05-08
得票数 2
1
回答
如何使用
apache-tika
从excel文件中访问空白单元格
我使用Apache-Tika-1.13来读取和处理excel文件内容,我很好地处理它,但是当我访问包含空白单元格的excel文件时,我遇到了问题。我需要访问空白单元格,Tika提供了访问空白单元格的最新版本吗?
浏览 0
提问于2016-06-28
得票数 1
回答已采纳
1
回答
向grails项目中添加
apache-tika
依赖项的正确方法是什么?
在使用tika-1.4时:at net.sf.cglib.core.DefaultGeneratorStrategy.getClassWriter(DefaultGeneratorStrategy.java:30)at net.sf.cglib.core
浏览 2
修改于2013-11-06
得票数 0
1
回答
在
Apache-Tika
中一次解析可以运行两个ContentHandlers吗?
我正在使用Apache Tika解析文档,并生成文档的纯文本版本和HTML预览。如果我调用两次parse函数并传入两个单独的ContentHandler,我就可以很好地生成这两个函数-这对于纯文本文档非常有效。但是当我获得需要使用tesseract进行OCR的文档时,这就有点问题了--调用parse函数两次是非常浪费的,因为它也会执行两次OCR (可能需要一分钟左右)。
浏览 24
提问于2020-05-22
得票数 1
回答已采纳
1
回答
Apache-tika
1.23无法将.eml文件作为电子邮件的附件抛出NoClassDefFoundError
java.lang.NoClassDefFoundError: org/apache/james/mime4j/stream/MimeConfig$Builder at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280) at org.apache.tika.parser.ParserDecorator.parse(ParserDecorator.java:1
浏览 31
修改于2020-07-27
得票数 0
3
回答
java.lang.NoClassDefFoundError:无法初始化类org.apache.pdfbox.pdmodel.font.PDFont
我在
apache-tika
module.xml中尝试了从PDFbox显式地从standalone.xml加载org.apache.pdfbox的依赖关系。
浏览 1
修改于2018-03-14
得票数 2
回答已采纳
领券