环境准备系统要求部署MinerU容器化应用前,请确保您的系统满足以下基本要求:操作系统:Linux(Ubuntu20.04+/CentOS7+)、macOS10.15+或Windows10+(建议使用WSL2 :latest\mineru-vllm-server\--host0.0.0.0\--port30000\--data-parallel-size2若在单GPU环境中遇到显存不足问题,可通过--gpu-memory-utilization :latest\mineru-api\--host0.0.0.0\--port8000\--data-parallel-size2\--gpu-memory-utilization0.53.GradioWebUI :mineru-vllm-servercommand:--host0.0.0.0--port30000#--data-parallel-size2#多GPU环境下可启用#--gpu-memory-utilization0.5 :mineru-apicommand:--host0.0.0.0--port8000#--data-parallel-size2#多GPU环境下可启用#--gpu-memory-utilization0.5
基于MinerU的PDF解析A - MinerU的GPU镜像构建 - 基于FastAPI的PDF解析接口 支持一键启动,已经打包到镜像中,自带模型权重,支持GPU推理加速,GPU速度相比CPU每页解析要快几十倍不等 进行表格识别; 光学字符识别:使用PaddleOCR进行文本识别; 镜像地址: 阿里云地址:docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru :0.2-models dockerhub地址:docker pull quincyqiang/mineru:0.2-models 启动命令: docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models 具体截图请见博客:https://cloud.tencent.com/developer/article
简介 MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器 支持PDF、Word、PPT等多种文档的智能解析,可用于机器学习、大模型语料生产、RAG等场景 特点 多语种支持 多类型支持 ,导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : ( 总结 总体来说效果还是不错的,未来应该会推出更多的格式转换 推荐大家试一试,有硬件条件的可以本地部署一个玩玩
参考官方例子:mineru.readthedocs.io/en/latest/user_guide/quick_start/to_markdown.html 本地文件例子: import os from
我部署实操了下面这几个近期流行的LLM OCR工具: MinerU MinerU曾在一两周前上过Github Trending榜,并且持续了好几天。 并且MinerU不能像Doc2X那样把表格图表OCR出来转为html、markdown表格这些结构化数据,它仅仅截图保存在本地。 但是Doc2X可以很好的识别出来: 不过MinerU在公式识别上还不错,至少不会像OmniParse那样将原字符识别错误。 要在本地部署他大约需要8G显存,如果你用cpu的话它将变得非常慢。 我建议你在linux上部署MinerU,因为我在windows部署它时,出现了cpu运行正常,gpu不正常的情况(对环境依赖版本有要求,你可以issue中查看),并且他的部署下载过程会比较久,因为他要下载大模型文件 Doc2X官网 https://doc2x.noedgeai.com/ 参考链接: [1] MinerU:https://github.com/opendatalab/MinerU [2] omniparse
前言:来一个官方一点的介绍:MinerU是一个一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。 MinerU可以用来做什么? 下载minerU,客户端版本下载地址: https://mineru.net/ 安装完成以后,可以直接上传文件进行解析。注意,这儿上传的文件,会被传输到远程的线上默认环境进行解析。 但是使用客户端的minerU,毕竟文档会被上传到云端,如果遇到私密的文档,还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题,毕竟本地才最安全。接下来开始本地化部署操作教程。 conda create -n mineru python=3.10 创建成功以后,激活conda环境。 conda activate mineru 安装magic-pdf环境,主要解析工具是这个。 以上就是minerU本地安装配置的全部过程。没了。
关于 MinerU MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 github: https:// 安装magic-pdf conda create -n MinerU python=3.10 conda activate MinerU pip install -U magic-pdf[full] - 完整功能包依赖detectron2,该库需要编译安装,如需自行编译,请参考 或是直接使用我们预编译的whl包(仅限python 3.10): pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/ 2. 利用Git lsf下载 git lfs install git lfs clone https://www.modelscope.cn/opendatalab/PDF-Extract-Kit.git 2)
前提假设 已通过 docker 的形式在内网环境部署 RagFlow RAGFlow 版本 >= v0.21.1 有内网环境 pip 源 安装 MinerU 更新 .env 文件 在 .env[2] 文件中添加如下内容 "bucket_info":{ "bucket-name-1":["ak", "sk", "endpoint"], "bucket-name-2":["ak", /OpenDataLab/PDF-Extract-Kit-1___0", "vlm": "/root/.cache/modelscope/hub/models/OpenDataLab/MinerU2 ___5-2509-1___2B" }, "config_version": "1.3.1" } 验证功能 完成安装后通过命令行验证 MinerU 功能: $ mineru -p test.pdf RAGFlow 中使用 MinerU: https://opendatalab.github.io/MinerU/zh/usage/plugin/RagFlow/ [2] .env: https:/
MinerU 在这方面效果很好,版面分析、公式识别、表格结构化都能处理,但本地部署门槛不低——GPU、几个 G 的模型文件、CUDA 和 PyTorch 版本对齐,光配环境就可能折腾半天。 Token 在 mineru.net/apiManage/token 免费申请,支持最大 200MB / 200 页:from mineru import MinerUclient = MinerU(" LaTeX / JSONMD / DOCX / HTML / LaTeX / JSON编程集成原生 Python 对象,.markdown .images 直接用stdout 文本流,管道友好和本地部署怎么选云端方案 本地部署(pip install magic-pdf[full])适合数据不能出内网的场景:完全离线运行,但需要 GPU(推荐 8GB+ 显存)和比较折腾的环境配置。 相关链接MinerU 生态主页:mineru.net/ecosystemPython SDK:GitHubCLI 工具:GitHubAPI Token 申请:mineru.net/apiManage/tokenAPI
原文链接指路:https://mp.weixin.qq.com/s/egtS2NM9zADl8ESxrXQrvQ? =83e02aec0842b1f638728f53ee5e98f9&version=4.1.33.99589&platform=mac#rd免费部署PDF转Markdown文件的方法为了能让AI大语言模型 MinerU关于PDF转Markdown的工具,一个比较不错的工具是MinerU,这是一个开源免费的转换工具。 一般来说,这种PDF转换工具,对硬件的要求都比较高,比如MinerU就给出了推荐的硬件配置,其中内存建议32G以上。为了更好的体验MinerU的功能,我们选择云服务器来部署。 PDF原版是双栏,转录可以很好的识别双栏格式2.
大家好,今天要给大家推荐一款堪称全能的开源Markdown格式文件提取器—MinerU。 MinerU项目介绍 MinerU 是一款一站式的高质量数据提取工具,主要功能包括从PDF、网页和电子书中提取数据,并将其转换为Markdown格式。 Markdown 至于使用的方式,最方便的当然是官方在线Demo: https://opendatalab.com/OpenSourceTools/Extractor/PDF 也可以自己依据项目说明进行本地或在线部署 ,毕竟人家是开源的(不过部署起来有些许麻烦,涉及许多配置及模型) 具体的需访问GitHub项目主页(https://github.com/opendatalab/MinerU),根据文档进行安装配置,即可开始使用 结语 总的来说,MinerU是一款非常实用且强大的数据提取工具。无论你是开发者、互联网从业者,还是有具体需求的新人小白,MinerU都能极大地提升你的工作效率,让你专注于更有价值的工作。
一句话总结 Dolphin 更适合研究和多模态文档解析,Mineru 更适合实际生产和多类型文档处理。 快速对比:Dolphin vs Mineru 对比维度 Dolphin Mineru 发布机构 字节跳动 Bytedance 上海人工智能实验室 OpenDataLab 发布时间 2025 年 5 OCR 核心特点 支持扫描 PDF:内置 OCR 模块,支持 84 种语言; 模块化设计:从解析、校对到导出全流程打通; 输出灵活:支持 Markdown、结构化 JSON,多种中间格式方便二次处理; 部署简单 MinerU 使用文档:MinerU 文档中心 适用场景 各类生产环境文档自动化处理 OCR 文档、合同扫描件、旧档案清洗 NLP 项目数据预处理和知识库构建 性能实测亮点 Dolphin 页面级 、元素级解析准确率高 采用 HAP 技术,多个元素并行处理,效率高于传统 pipeline 更适合 GPU 高性能部署场景 ⚙️ Mineru 在 Docling 测试中表现优异(GPU 上 0.21
token:import { MinerU } from "mineru-open-sdk";const client = new MinerU(); // 自动读取 MINERU_TOKEN方式二: 代码中显式传入import { MinerU } from "mineru-open-sdk";const client = new MinerU("your-api-token");如果没有传入 token import { MinerU } from "mineru-open-sdk";const client = new MinerU("your-api-token");const result = await await (const result of client.crawlBatch([ "https://example.com/page1", "https://example.com/page2" 初始化客户端(建议使用环境变量存储 token)const client = new MinerU(process.env.MINERU_TOKEN);// 2.
官网:https://caddyserver.com/docs/ 中文教程网站:https://caddy2.dengxiaolong.com/docs/ Github地址:https://github.com /caddyserver/caddy 这里以v2.6.2版本做演示 本站以切换到Caddy 2.6.2版本反代 Docker部署 docker run -d --restart=always --privileged 证书配置示例 https://域名 { import GZIP import LOG "域名" tls 邮箱 reverse_proxy 10.0.0.13:9000 } Rancher2部署 部署、使用都很简单,欢迎使用
想摘个数据都得手动敲,眼睛都要瞎了 昨天被人安利了 MinerU-真的太强了,太牛逼了!!! 一句话概括: 一个能把你任何PDF/Word/PPT,一键转成干净、结构化、可编辑文档的全能神器! 三种方式随便用: 1️⃣ 在线用:打开官网 https://mineru.net/ → 直接拖文件进去 2️⃣ 下客户端:Win/Mac都有,安装像微信一样快,全程点点点✅ 3️⃣ 本地搭建(极客向): 支持私有部署,数据完全不出内网 而且! 我拿800页《医学统计学》测试:⏱️ 100页 ≈ 2分钟!全书跑完不到20分钟,结果超清晰! ✅ 提取 & 转换一步到位! ✅不只是文字,表格、公式、图片、标题层级全保留! 快去 https://mineru.net/ 试试! 800多页扫描版医学统计学都能搞定,你那几页报告算什么!
MinerU 是什么MinerU 是上海人工智能实验室开源的一站式文档解析工具,基于视觉语言模型(VLM)架构,能够将 PDF、图片、Word、PPT、Excel 等任意格式的文档转换为结构化的 Markdown langchain-mineru 是 MinerU 官方维护的 LangChain 文档加载器(Document Loader)。 加载文档loader = MinerULoader(source="demo.pdf", mode="flash")docs = loader.load()# 2. 加载文档loader = MinerULoader( source="manual.pdf", mode="precision",)docs = loader.load()# 2. /MinerU-Ecosystem/tree/main/sdk/pythonAPI 文档:https://mineru.net/apiManage/docsToken 申请:https://mineru.net
本次实验采取识别能力靠前[2]且常用的gpt-4o模型配合 gptpdf 来进行实验:测试gptpdf的封装度较高,且依赖较少,一次pip即可安装。 其算力要求相对低的特点也使其适用于本地部署,一个广受好评的解决方案是MinerU,作为开源的数据提取工具,目前在github上已经有24.3k stars.测试minerU的安装相对复杂些,且如果要安装 值得注意的是,由于markdown格式表格不易于显示复杂表,minerU的默认表格识别将会把表格转换为html格式,从纯文本打开的话会像是这样:issues中有人给出了能转换为markdown格式的替代方案 小结名称访问地址文本正确性表格正确性标题正确性识别速度成本本地部署便捷使用MinerUhttps://github.com/opendatalab/MinerU基本正确较差只能简单区分是否为标题,且识别准确性不高正相关于硬件算力 16s/页可行(基于视觉大模型,显存要求高)可行部署便捷MinerUhttps://github.com/opendatalab/MinerU基本正确较差只能简单区分是否为标题,且识别准确性不高正相关于硬件算力
解法:为你的 AI 接入 MinerU MCP Server解决办法也极度自然:给你的开发平台(比如 Antigravity 或支持 MCP 的编辑器)配置 MinerU 的 MCP Server。 第一步:获取免费 Token首次使用需要前往 MinerU 官网获取专属 API Token(第一次需要注册登录):直接访问MinerU 官网 申请即可获取。 核心配置如下:服务器类型:command (即 stdio 标准流模式)执行命令 (Command):uvx运行参数 (args):["mineru-open-mcp"]环境变量 (Env):设定 MINERU_API_TOKEN ": { "command": "uvx", "args": "mineru-open-mcp", "env": { "MINERU_API_TOKEN": 点击 + Add New MCP Server,名称填入 mineru,类型对应选择 command,输入 uvx mineru-open-mcp 作为完整命令(视界面可能要分开填参)。
注意: DocuTranslate: 标准版,使用在线的 minerU 引擎解析PDF文档,如果不需要本地解析pdf选这个版本(推荐)。 docutranslate.workflow.md_based_workflow import MarkdownBasedWorkflow, MarkdownBasedWorkflowConfig from docutranslate.converter.x2md.converter_mineru import MD2HTMLExporterConfig async def main(): # 1. 构建转换器配置 (使用 minerU) converter_config = ConverterMineruConfig( mineru_token="YOUR_MINERU_TOKEN ", # 你的 minerU Token formula_ocr=True # 开启公式识别 ) # 3.
2. 智能体 • 通过重构底层架构提升了“智能体”组件的性能。 • “智能体”组件现在可以输出结构化数据,供下游组件使用。 • 支持使用网络钩子来触发智能体执行。 • 支持语音输入/输出。 Airtable • 新增模型支持: • GPT-5.2 • GPT-5.2 Pro • GPT-5.1 • GPT-5.1 Instant • Claude Opus 4.5 • MiniMax M2 • 新增了MiniMax-M2模型,并移除了过时的MiniMax模型。 • 从Infinity导入分词器。 • 新增了MinerU自动安装器。 • 改进了PDF解析器的呈现效果。 • 为Docker部署中的TEI配置文件设置默认嵌入模型。 • 修复了列表索引越界错误。 • 将CV模型聊天迁移至异步。 • 将Infinity升级至v0.6.11(要求Python>=3.11)。 • 更新了本地LLM部署文档,增加了vLLM指南支持。 • 在检索节点中显示已选记忆列表。 • 允许更新记忆类型。 • 修复了更多内存相关错误。 • 修复了不允许检查的字段移除问题。