我正在尝试使用mammoth包将一个简单的docx文件转换为HTML文件。但是,生成的HTML似乎只包含完整html文件的一部分:生成的HTML字符串中缺少html、head和body标记。
我想知道是否有参数可以使HTML成为有效的HTML代码。
发布于 2020-03-25 20:18:57
我阅读了文档,但还没有找到生成完整HTML的选项。由于生成的HTML只是一个刺痛点,因此很容易使其成为完全兼容HTML的:
import mammoth
with open("test.docx", "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
html = result.value # The generated HTML
messages = result.messages # Any messages,
full_html = (
'<!DOCTYPE html><html><head><meta charset="utf-8"/></head><body>'
+ html
+ "</body></html>"
)
with open("test.html", "w", encoding="utf-8") as f:
f.write(full_html)在上面的代码中,我们只是在前面加上必要的开始和结束标记,使html字符串成为有效的HTML源代码。
https://stackoverflow.com/questions/60848712
复制相似问题