首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python使用mammoth将docx转换为html : html,缺少head和body标记

Python使用mammoth将docx转换为html : html,缺少head和body标记
EN

Stack Overflow用户
提问于 2020-03-25 20:18:57
回答 1查看 400关注 0票数 0

我正在尝试使用mammoth包将一个简单的docx文件转换为HTML文件。但是,生成的HTML似乎只包含完整html文件的一部分:生成的HTML字符串中缺少html、head和body标记。

我想知道是否有参数可以使HTML成为有效的HTML代码。

EN

回答 1

Stack Overflow用户

发布于 2020-03-25 20:18:57

我阅读了文档,但还没有找到生成完整HTML的选项。由于生成的HTML只是一个刺痛点,因此很容易使其成为完全兼容HTML的:

代码语言:javascript
复制
import mammoth

with open("test.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value  # The generated HTML
    messages = result.messages  # Any messages,

    full_html = (
        '<!DOCTYPE html><html><head><meta charset="utf-8"/></head><body>'
        + html
        + "</body></html>"
    )

    with open("test.html", "w", encoding="utf-8") as f:
        f.write(full_html)

在上面的代码中,我们只是在前面加上必要的开始和结束标记,使html字符串成为有效的HTML源代码。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60848712

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档