我正在寻找一个库(或命令行工具),以将MS Office文档转换为纯文本或HTML (转换为文本)。
它必须在Linux上运行(不是通过Wine!)。
我找到了antiword,但上一次发布是2005年,所以它不能读取新的Office2007格式。
我需要它来阅读Word、Excel和Powerpoint文档
发布于 2009-11-17 16:12:09
Apache POI库可以extract text from office formats。这是由Tika in Lucene使用的。Tika可以作为command line tool执行
curl http://.../document.doc \
| java -jar tika-app-x.y.jar --text \
| grep -q keyword发布于 2009-11-17 14:58:35
新的office 2007格式只是(ZIP)压缩的XML。
所有文本(至少采用.docx格式)都位于word文件夹document.xml文件中(解压缩文件后)。将它从所有XML标记中剥离出来,您就会得到文本。毫无疑问,您将丢失格式,但如果您想要进行文本索引或类似的操作,则格式无关紧要。该顺序被保留。
我没有分析过Excel和Powerpoint,但方法应该是相似的。Excel可能更棘手,这取决于单元格在XML文件中的存储方式。
发布于 2009-11-17 15:42:32
用于自动化OpenOffice的PyODConverter。使用它进行转换。
OONinja example转换文档,但任何OpenOffice支持的导入或导出应该工作。如果需要,还具有无头工作的优点。
其他选项包括,Abiword或者你只是想处理命令行WvWare,但我不认为它支持Docx,
https://stackoverflow.com/questions/1746996
复制相似问题