全,
我正在修改一个python脚本(使用PyUno),它将读取MSword文档(.docx)并将其转换为xml。我有一个脚本,将做一切我需要的here,除了它将从文档转换为pdf。我找不到可接受的xml导出格式列表。
任何帮助都将不胜感激。
谢谢!
:bp:
发布于 2016-01-06 10:36:06
这两个XML值产生不同的平面FilterName格式:
OpenDocument Text Flat XMLMS Word 2003 XML我通过这样做找到了这些名字:
通过转到工具宏选项和高级,选中“启用宏Recording".
请记住,.odt和.docx也是基于XML的格式,只是它们是压缩的而不是平面的。可以通过执行以下操作来解析这些格式的文件:
import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile
filepath = "in.odt" # or "in.docx"
tempDir = "path/to/temp/dir/" # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
zipper.extractall(tempDir)
try:
dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
# handle exceptionhttps://stackoverflow.com/questions/34618256
复制相似问题