关于在linux上使用python将.doc、.ppt和.xls转换为纯文本的方法,有什么建议吗?实际上,任何转换方法都是有用的。我已经考虑过使用Open Office,但我想要一个不需要安装Open Office的解决方案。
发布于 2009-03-26 22:57:39
我使用命令行-solution(然后使用Python subprocess module从Python运行工具)。
msword (catdoc),excel (xls2csv)和ppt (catppt)的转换器可以在这里找到(源代码格式):http://vitus.wagner.pp.ru/software/catdoc/。
不能真的评论catppt的用处,但catdoc和xls2csv工作得很好!
但请务必首先搜索您的发行版存储库...例如,在ubuntu上,catdoc只是一个快速的apt-get。
发布于 2009-03-26 12:32:11
您可以访问OpenOffice via Python API。
尝试使用这个作为基础:http://wiki.services.openoffice.org/wiki/Odt2txt.py
发布于 2009-03-26 12:27:43
将Microsoft Office文档转换为超文本标记语言或其他格式的常用工具是mswordview,后来更名为vwWare。
如果您正在寻找命令行工具,他们实际上建议使用AbiWord来执行转换:
AbiWord --to=txt如果你正在寻找一个库,就从wvWare overview page开始吧。他们还维护a list of libraries and tools which read MS Office documents。
https://stackoverflow.com/questions/685533
复制相似问题