首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >微软发布了一个文档转Markdown的利器:MarkItDown初体验

微软发布了一个文档转Markdown的利器:MarkItDown初体验

原创
作者头像
小明互联网技术分享社区
发布2025-01-02 09:11:25
发布2025-01-02 09:11:25
7.6K0
举报
文章被收录于专栏:IT技术分享社区IT技术分享社区
图片
图片

微软近期开源了一个叫 MarkItDown 的文档转换工具,可以将各种文件轻松转换为Markdown格式,今天就来给大家介绍一下!

一、什么是 Markdown?

图片
图片

Markdown 是一种轻量级标记语言,由 John Gruber 和 Aaron Swartz 在 2004 年共同创建。它以其简洁的语法和易读性而闻名,非常适合用于编写结构化的文档。Markdown 文件通常以 .md.markdown 为扩展名,可以在各种平台和设备上轻松编辑和预览。目前Markdown 是自媒体创作者和程序员使用最广泛的文档语言。

二、MarkItDown 的主要功能

图片
图片

MarkItDown 是微软近期开源的一款专门用于将各种文件转换为 Markdown 格式的工具。

三、MarkItDown 支持转换的格式

  • PDF:支持将 PDF 文件中的文本内容提取并转换为 Markdown 格式。
  • PPT:将 PowerPoint 演示文稿中的文本和图像内容转换为 Markdown。
  • Word:将 Word 文档中的内容转换为 Markdown,保留基本的格式和结构。
  • Excel
  • 图像(EXIF 元数据和 OCR 光学字符识别)
  • 音频(EXIF 元数据和语音转文字)
  • HTML:将 HTML 文件中的内容转换为 Markdown,保留基本的格式和结构。
  • CSV、JSON、XML:将 CSV、JSON 和 XML 文件中的数据转换为 Markdown 格式,便于进一步处理和分析。
  • ZIP 文件(迭代处理压缩包内的文件)

四、MarkItDown 的优势

4.1 便捷高效

图片
图片

MarkItDown 提供了一种简单易用的界面,用户只需上传文件即可自动完成转换过程。无需复杂的设置和配置,大大节省了用户的时间和精力。

4.2 多文档格式支持

MarkItDown 支持十几种常见文件格式。无论是文档、表格、图像还是音频文件,MarkItDown 都能实现转换。

4.3 开放源码

MarkItDown 是一款开源工具,用户可以根据需要进行定制和扩展,满足个性化的需求。

官网:https://github.com/microsoft/markitdown

五、使用教程

这里给大家简单说一下如何本地使用MarkItDown。这里以Win10电脑为例。

因为MarkItDown基于Python环境开发,所以需要安装Python并且配置环境变量。

Python下载官网:https://www.python.org/downloads/

图片
图片

然后点击Windows进入下载界面

图片
图片

然后下载安装包,版本我这边下载的是3.12.8.

下载后正常安装python,默认勾选配置环境变量即可。安装步骤非常简单,直接一步步操作就行了,这里就不多说了。

安装python并且配置环境变量ok后可以使用cmd命令检查是否安装成功。

运行cmd命令窗口,输入

代码语言:javascript
复制
python

回车,正确安装python如下图:

图片
图片

然后安装依赖包,输入如下命令:

代码语言:javascript
复制
pip install markitdown

安装效果如下图:

图片
图片

安装完成后就可以使用命令行进行测试了。

这里找一个text.xlsx文件,文件效果如下图:

图片
图片
代码语言:javascript
复制
markitdown test.xlsx > test.md

执行命令后如下图:

图片
图片

转换成功后打开转换后的效果如下图:

图片
图片

目前测试过程中发现几个不足之处:

  • 带有图片的文档转换,图片转换总是失败
  • pdf针对编码有问题,容易出现转换报错的情况
图片
图片

估计后续还要不少问题等待修复和优化,毕竟刚开源不久,等待后续更好用的版本发布吧。

六、总结

以上是微软发布MarkItDown工具的介绍,大家如果在配置当中有啥问题欢迎评论区沟通交流!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、什么是 Markdown?
  • 二、MarkItDown 的主要功能
  • 三、MarkItDown 支持转换的格式
  • 四、MarkItDown 的优势
    • 4.1 便捷高效
    • 4.2 多文档格式支持
    • 4.3 开放源码
  • 五、使用教程
  • 六、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档