首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >编写器的PyUno文件类型转换

编写器的PyUno文件类型转换
EN

Stack Overflow用户
提问于 2016-01-06 01:57:42
回答 1查看 146关注 0票数 2

全,

我正在修改一个python脚本(使用PyUno),它将读取MSword文档(.docx)并将其转换为xml。我有一个脚本,将做一切我需要的here,除了它将从文档转换为pdf。我找不到可接受的xml导出格式列表。

任何帮助都将不胜感激。

谢谢!

:bp:

EN

回答 1

Stack Overflow用户

发布于 2016-01-06 10:36:06

这两个XML值产生不同的平面FilterName格式:

  • OpenDocument Text Flat XML
  • MS Word 2003 XML

我通过这样做找到了这些名字:

通过转到工具宏选项和高级,选中“启用宏Recording".

  • Tools ->记录宏。

  • 文件->另存为”,启用宏录制。为类型选择了各种选项。

  • 命名了宏,然后在生成的Basic代码中检查了FilterName属性。

请记住,.odt和.docx也是基于XML的格式,只是它们是压缩的而不是平面的。可以通过执行以下操作来解析这些格式的文件:

代码语言:javascript
复制
import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile

filepath = "in.odt"  # or "in.docx"
tempDir = "path/to/temp/dir/"  # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
    zipper.extractall(tempDir)
try:
    dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
    # handle exception
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34618256

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档