在word中有一组大约400个文档,这是质量管理系统Word的一部分,这让我很痛苦,因为a)它处理大文档中的图像很糟糕b)布局有时会被破坏c)为不同的客户配置文档是很麻烦的。
我可以将单个文档保存为xml/html或text,然后手动将其转换为latex,但对于400个文档,这是不可能的。我知道我可以使用像PrimoPDF这样的工具将word文档直接打印成pdf格式,但这还不够灵活,因为我需要修改内容。
有没有一种方法可以保持文档的结构,如纯文本、标题、表格、图像并将其转换为XML?之后,我想把XML转换成html,latex和pdf,根据我们客户的选择,也修改内容?xslt是将xml转换为其他格式的一种方法吗?
谢谢你的建议。
发布于 2009-07-25 20:03:08
您可以将文档转换为Word 2007。Office2007文档是XML文档:只需将文件扩展名更改为.zip和upzip即可。此外,Microsoft还发布了一个用于处理Office 2007文档的API,该API比使用XML标记的级别更高。
发布于 2009-07-25 08:55:44
要将MS Word批量转换为其他格式,您可以看看OpenOffice.org。OpenOffice有一个用于批量转换的(命令行)批处理模式。您还可以查看JodConverter,它仅使用该机制转换文档。
这样你就可以将微软的Word批量转换为OpenOffice.org支持的其他格式。可能是文本,可能是RTF,也可能是OpenOffice XML。
这样,您就有了一种更容易转换为Latex的格式。
在Stack Overflow上搜索Word和OpenOffice,你会找到像this one about Word to Html conversion这样的结果。
发布于 2009-07-27 09:41:25
在TUG (TeX用户组)有关于Word <--> LaTeX转换的建议:
http://www.tug.org/utilities/texconv/pctotex.html
这可能值得一看,看看是否有任何建议和方法符合您的要求。
https://stackoverflow.com/questions/1181603
复制相似问题