首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python MS Word

Python MS Word
EN

Stack Overflow用户
提问于 2009-05-26 13:38:47
回答 6查看 8.8K关注 0票数 2

可能重复: 用Python读写MS Word文件

我正在研究一个需求管理系统(就像requiste Rational )--并且需要在windows或Apple环境中通过一个搜索特定标签的MS文档来阅读。是否有任何已知的框架(我找不到)-或建议的方法?

为了增加一些澄清--这不是一次性阅读,每次对文档进行更新时,我都会检查它,并对需求特定的区域执行CRUD。

EN

回答 6

Stack Overflow用户

发布于 2009-05-26 14:03:33

首先,将其从本机Word (.doc)格式中删除。

  • 做一个“另存为XML”,并坚持您的用户使用该文件,而不是.doc文件。他们几乎不会注意到不同之处--只是文件更大。 使用lxml元素树解析XML并查找标题、节、段落和列表。
  • 您还可以在进行分析之前进行“另存为HTML”。这与XML版本一样有效。然而,HTML版本对用户来说并不容易,所以只在分析之前这样做。 使用美汤解析HTML并找到标题、节、段落和列表。

一旦有了解析结构(XML或HTML),就可以分析文档,寻找特定的标记。

票数 4
EN

Stack Overflow用户

发布于 2009-05-26 15:40:53

您可以基于openoffice.org读取Word文档的能力。Python-UNO桥允许使用来自python脚本语言的标准OpenOffice.org API。使用Python-UNO并在机器上拥有openoffice的相关部分,阅读大多数Word文档应该是非常简单的。

票数 2
EN

Stack Overflow用户

发布于 2009-05-26 16:02:58

使用工具(VSTO),可以从任何.NET语言编写.NET脚本。如何:在文档中搜索文本示例显示了C#Visual Basic代码,但是IronPython也可以调用相同的.NET方法。

如果您准备使用IronPython (没有Mac等效),这可能是Word文档中搜索的一种特定于Windows的解决方案。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/910730

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档