首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将Microsoft Office文档转换为文本

将Microsoft Office文档转换为文本
EN

Stack Overflow用户
提问于 2009-11-17 14:36:50
回答 4查看 1.7K关注 0票数 2

我正在寻找一个库(或命令行工具),以将MS Office文档转换为纯文本或HTML (转换为文本)。

它必须在Linux上运行(不是通过Wine!)。

我找到了antiword,但上一次发布是2005年,所以它不能读取新的Office2007格式。

我需要它来阅读Word、Excel和Powerpoint文档

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-11-17 16:12:09

Apache POI库可以extract text from office formats。这是由Tika in Lucene使用的。Tika可以作为command line tool执行

代码语言:javascript
复制
curl http://.../document.doc \
  | java -jar tika-app-x.y.jar --text \
  | grep -q keyword
票数 2
EN

Stack Overflow用户

发布于 2009-11-17 14:58:35

新的office 2007格式只是(ZIP)压缩的XML。

所有文本(至少采用.docx格式)都位于word文件夹document.xml文件中(解压缩文件后)。将它从所有XML标记中剥离出来,您就会得到文本。毫无疑问,您将丢失格式,但如果您想要进行文本索引或类似的操作,则格式无关紧要。该顺序被保留。

我没有分析过Excel和Powerpoint,但方法应该是相似的。Excel可能更棘手,这取决于单元格在XML文件中的存储方式。

票数 4
EN

Stack Overflow用户

发布于 2009-11-17 15:42:32

用于自动化OpenOffice的PyODConverter。使用它进行转换。

OONinja example转换文档,但任何OpenOffice支持的导入或导出应该工作。如果需要,还具有无头工作的优点。

其他选项包括,Abiword或者你只是想处理命令行WvWare,但我不认为它支持Docx,

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1746996

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档