我正在尝试转换Docx到超文本标记语言,但Docx可能包含图像,WMF格式的MathType方程和带有$分隔符的tex格式的word方程。
我尝试过使用pandoc和LibreOffice将Docx转换为Html:
使用Pandoc的问题:Pandoc跳过MathType方程,所以我不得不读取document.xml,并使用gimp's convert命令行工具将WMF转换为png。
这使得一些公式的格式变得非常难以阅读。
使用libreoffice的问题:它实际上很好地将整个文档转换为HTML,但word公式在转换过程中被从侧面剪切。
我想要的是一些工具,可以转换文件到超文本标记语言,它转换的MathType方程以及word方程都到tex格式。
我想用ruby做这件事,但任何变通方法或想法都是最受欢迎的。
谢谢。
发布于 2016-09-16 05:33:36
pandoc docx阅读器的supports only OMML数学,而不是旧的MathType。
您可以编写一个pandoc filter来查找pandoc AST中的数学(它将以纯文本的形式存在),并将它们转换为pandoc math elements,pandoc LaTeX编写器会自动将其转换为TeX数学。
https://stackoverflow.com/questions/39514038
复制相似问题