搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏轩辕镜像
MinerU Docker 部署指南：PDF 结构化解析服务实践
本指南将以Docker容器化部署为核心，详细介绍MinerU在vLLM等加速后端场景下的部署方式，包括环境准备、镜像拉取、服务启动、功能验证以及生产环境配置建议，帮助用户快速构建稳定、可复现的MinerU 环境准备系统要求部署MinerU容器化应用前，请确保您的系统满足以下基本要求：操作系统：Linux(Ubuntu20.04+/CentOS7+)、macOS10.15+或Windows10+（建议使用WSL2 以下分别介绍这三种服务的部署方法。1.vLLM后端服务部署vLLM后端服务是MinerU的核心组件，提供高性能的文档解析与处理能力。，建议部署多实例并配置负载均衡，以提高系统可用性：多实例部署：部署多个MinerU实例，避免单点故障负载均衡：使用Nginx或云服务提供商的负载均衡服务分发流量自动扩缩容：在Kubernetes环境中， Kubernetes环境中部署，以获得更强大的编排和管理能力通过本文提供的指南，相信您已能够顺利部署和使用MinerU容器化应用。
2.3K20编辑于 2025-12-31
来自专栏自然语言处理
基于MinerU的PDF解析API
基于MinerU的PDF解析A - MinerU的GPU镜像构建 - 基于FastAPI的PDF解析接口支持一键启动，已经打包到镜像中，自带模型权重，支持GPU推理加速，GPU速度相比CPU每页解析要快几十倍不等进行表格识别；光学字符识别：使用PaddleOCR进行文本识别；镜像地址：阿里云地址：docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru :0.2-models dockerhub地址：docker pull quincyqiang/mineru:0.2-models 启动命令： docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models 具体截图请见博客：https://cloud.tencent.com/developer/article
2.5K11编辑于 2024-11-23
来自专栏姓王者的博客
国产开源的文档转换器:MinerU
简介 MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器支持PDF、Word、PPT等多种文档的智能解析，可用于机器学习、大模型语料生产、RAG等场景特点多语种支持多类型支持 ,导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : ( 总结总体来说效果还是不错的,未来应该会推出更多的格式转换推荐大家试一试,有硬件条件的可以本地部署一个玩玩
86810编辑于 2025-03-28
来自专栏周拱壹卒
内网环境在 RAGFlow 中使用 MinerU
前提假设已通过 docker 的形式在内网环境部署 RagFlow RAGFlow 版本 >= v0.21.1 有内网环境 pip 源安装 MinerU 更新 .env 文件在 .env[2] 文件中添加如下内容： MINERU_EXECUTABLE=/ragflow/uv_tools/.venv/bin/mineru MINERU_MODEL_SOURCE=local 其中 MINERU_MODEL_SOURCE cache/modelscope/hub/models/OpenDataLab/PDF-Extract-Kit-1___0 10 directories, 1 file 如果内网有 ModelScope[7] /20251126-090158.pdf -o /tmp/mineru_pdf_k3y3cwp7 -m auto -b pipeline 执行效果： RAGFlow 参考资料 [1] 使用教程：如何在 docker/docker-compose.yml [6] ragflow/docker: https://github.com/infiniflow/ragflow/tree/main/docker [7]
54610编辑于 2026-03-16
MinerU的python接口使用例子
参考官方例子：mineru.readthedocs.io/en/latest/user_guide/quick_start/to_markdown.html 本地文件例子： import os from
70910编辑于 2025-07-22
来自专栏Dotnet Dancer
MinerU本地化部署教程——一款AI知识库建站的必备工具
前言：来一个官方一点的介绍：MinerU是一个一站式、开源、高质量的数据提取工具，支持多种功能，如提取 PDF、markdown 等格式的内容。 MinerU可以用来做什么？下载minerU，客户端版本下载地址： https://mineru.net/ 安装完成以后，可以直接上传文件进行解析。注意，这儿上传的文件，会被传输到远程的线上默认环境进行解析。但是使用客户端的minerU,毕竟文档会被上传到云端，如果遇到私密的文档，还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题，毕竟本地才最安全。接下来开始本地化部署操作教程。 conda create -n mineru python=3.10 创建成功以后，激活conda环境。 conda activate mineru 安装magic-pdf环境，主要解析工具是这个。以上就是minerU本地安装配置的全部过程。没了。
11.5K10编辑于 2025-03-29
来自专栏python前行者
MinerU、Magic-PDF、Magic-Doc
关于 MinerU MinerU 是一款一站式、开源、高质量的数据提取工具，主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 github： https:// github.com/opendatalab/MinerU/blob/master/README_zh-CN.md 在线体验地址： https://opendatalab.com/OpenSourceTools /Extractor/PDF https://www.modelscope.cn/studios/OpenDataLab/MinerU Magic-PDF 简介 Magic-PDF 是一款将 PDF 安装magic-pdf conda create -n MinerU python=3.10 conda activate MinerU pip install -U magic-pdf[full] - some_bucket/some_doc.pptx", conv_timeout=300) 性能环境：AMD EPYC 7742 64-Core Processor, NVIDIA A100, Centos 7
3.1K10编辑于 2024-11-24
来自专栏AI进修生
MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评（LLM & RAG数据准备）
我部署实操了下面这几个近期流行的LLM OCR工具： MinerU MinerU曾在一两周前上过Github Trending榜，并且持续了好几天。但是Doc2X可以很好的识别出来：不过MinerU在公式识别上还不错，至少不会像OmniParse那样将原字符识别错误。要在本地部署他大约需要8G显存，如果你用cpu的话它将变得非常慢。我建议你在linux上部署MinerU，因为我在windows部署它时，出现了cpu运行正常，gpu不正常的情况（对环境依赖版本有要求，你可以issue中查看），并且他的部署下载过程会比较久，因为他要下载大模型文件它有众多的导出形式你最好选择$$，浙江更好地显示latex公式但是他也有缺点他并不开源，并且无法本地部署，意味着你只能将数据交给云端。 Doc2X官网 https://doc2x.noedgeai.com/ 参考链接： [1] MinerU：https://github.com/opendatalab/MinerU [2] omniparse
8.2K10编辑于 2024-12-02
来自专栏XBD
CentOS 7 部署 OpenVPN
环境：外网IP：139.198.15.121 内网IP：10.180.27.8
8.9K42编辑于 2022-10-27
MinerU 生态实战_图片型PDF批量转Markdown
MinerU 在这方面效果很好，版面分析、公式识别、表格结构化都能处理，但本地部署门槛不低——GPU、几个 G 的模型文件、CUDA 和 PyTorch 版本对齐，光配环境就可能折腾半天。 Token 在 mineru.net/apiManage/token 免费申请，支持最大 200MB / 200 页：from mineru import MinerUclient = MinerU(" LaTeX / JSONMD / DOCX / HTML / LaTeX / JSON编程集成原生 Python 对象，.markdown .images 直接用stdout 文本流，管道友好和本地部署怎么选云端方案本地部署（pip install magic-pdf[full]）适合数据不能出内网的场景：完全离线运行，但需要 GPU（推荐 8GB+ 显存）和比较折腾的环境配置。相关链接MinerU 生态主页：mineru.net/ecosystemPython SDK：GitHubCLI 工具：GitHubAPI Token 申请：mineru.net/apiManage/tokenAPI
1700编辑于 2026-04-16
来自专栏开源部署
Centos7系统部署ELK配置部署
二、安装部署1.安装jdkyum install -y java-1.8.0-openjdkhostnamectl set-hostname elk-1 #修改主机名systemctl 启动/bin/kibana &查看端口监听情况三、测试通过web界面访问，创建index patterns查看创建对应的日志本文为个人测试ELK最新版本最基础的搭建，可以将其在docker中各应用拆分开部署
2.1K30编辑于 2022-07-16
来自专栏《Cloud Studio》
免费部署PDF转Markdown文件的方法
83e02aec0842b1f638728f53ee5e98f9&sharer_shareinfo_first=83e02aec0842b1f638728f53ee5e98f9&version=4.1.33.99589&platform=mac#rd免费部署 MinerU关于PDF转Markdown的工具，一个比较不错的工具是MinerU，这是一个开源免费的转换工具。 Github地址是：https://github.com/opendatalab/MinerU，同时也给了官网Demo地址：https://mineru.net/，在官网Demo地址上同样可以免费体验，一般来说，这种PDF转换工具，对硬件的要求都比较高，比如MinerU就给出了推荐的硬件配置，其中内存建议32G以上。为了更好的体验MinerU的功能，我们选择云服务器来部署。 Cloud Studio我们使用腾讯云的Cloud Studio来部署，腾讯云是专业的云服务器提供商，而腾讯云推出的 Cloud Studio，相当于在服务器机器之上提供了开发环境，开发模板，主流模型等
1.5K00编辑于 2025-03-13
来自专栏若尘的技术专栏
CentOS7 部署WordPress
前提： 1.完成Linux CentOS 7最小化安装后基本配置和下载必备插件。
1.3K65编辑于 2021-12-04
来自专栏运维前线
CentOS 7 部署RabbitMQ 服务
版权声明：本文为木偶人shaon原创文章，转载请注明原文地址，非常感谢。 https://blog.csdn.net/wh211212/article/details/53127078
1.8K11发布于 2019-05-29
来自专栏XBD
CentOS7 部署 PostgreSQL
44610编辑于 2024-08-07
来自专栏java开发的那点事
Activiti7 流程部署
org.activiti.engine.RepositoryService; import org.activiti.engine.repository.Deployment; /** * 流程定义的部署 */ public class ActivitiDeployment { /** * 执行部署 * 影响的表 * act_re_deployment 部署信息 * act_re_procdef 流程定义的一些信息 * act_ge_bytearray 流程定义的bpmn文件和png图片 * RepositoryService repositoryService = defaultProcessEngine.getRepositoryService(); // 3:进行部署
1.4K40发布于 2020-09-30
来自专栏运维前线
CentOS 7 部署saltstack服务
https://blog.csdn.net/wh211212/article/details/53168968 SaltStack 简介 Salt，,一种全新的基础设施管理方式，部署轻松 grains.item kernelrelease vdevops.org: ---------- kernelrelease: 3.10.0-327.36.2.el7. x86_64 linuxprobe.org: ---------- kernelrelease: 3.10.0-327.el7.x86_64 自定义目标组 [root # 确认 [root@linuxprobe ~]# salt "vdevops.org" cmd.run 'rpm -q wget' vdevops.org: wget-1.14-10.el7_ add-service={http,https,mysql} --permanent_|-run: ---------- __run_num__: 7
1.1K30发布于 2019-05-26
来自专栏开源部署
CentOS 7 系统部署 RabbitMQ
Linux系统：CentOS7 1、安装系统基础设施服务器：Java平台、Linux远程管理、开发工具 2、打开网络连接：（1）cd /etc/sysconfig/network-scripts/ selinux 把里边的一行改为 SELINUX=disabled 4、安装Erlang su -c 'rpm -Uvh http://download.Fedoraproject.org/pub/epel/7/ x86_64/e/epel-release-7-5.noarch.rpm' sudo yum install erlang 检查是否安装好： [root@localhost /]# erl Erlang rabbitmq_management 6、启动RabbitMQ chkconfig rabbitmq-server on /sbin/service rabbitmq-server start 7、
63410编辑于 2022-07-08
来自专栏翩翩白衣少年
开源的全能Markdown格式文件提取器：MinerU
大家好，今天要给大家推荐一款堪称全能的开源Markdown格式文件提取器—MinerU。 MinerU项目介绍 MinerU 是一款一站式的高质量数据提取工具，主要功能包括从PDF、网页和电子书中提取数据，并将其转换为Markdown格式。 Markdown 至于使用的方式，最方便的当然是官方在线Demo： https://opendatalab.com/OpenSourceTools/Extractor/PDF 也可以自己依据项目说明进行本地或在线部署，毕竟人家是开源的（不过部署起来有些许麻烦，涉及许多配置及模型）具体的需访问GitHub项目主页（https://github.com/opendatalab/MinerU），根据文档进行安装配置，即可开始使用结语总的来说，MinerU是一款非常实用且强大的数据提取工具。无论你是开发者、互联网从业者，还是有具体需求的新人小白，MinerU都能极大地提升你的工作效率，让你专注于更有价值的工作。
2.1K10编辑于 2024-08-13
来自专栏四楼没电梯
字节跳动 Dolphin vs Mineru：哪个才是你的文档解析最优解？
一句话总结 Dolphin 更适合研究和多模态文档解析，Mineru 更适合实际生产和多类型文档处理。快速对比：Dolphin vs Mineru 对比维度 Dolphin Mineru 发布机构字节跳动 Bytedance 上海人工智能实验室 OpenDataLab 发布时间 2025 年 5 OCR 核心特点支持扫描 PDF：内置 OCR 模块，支持 84 种语言；模块化设计：从解析、校对到导出全流程打通；输出灵活：支持 Markdown、结构化 JSON，多种中间格式方便二次处理；部署简单 MinerU 使用文档：MinerU 文档中心适用场景各类生产环境文档自动化处理 OCR 文档、合同扫描件、旧档案清洗 NLP 项目数据预处理和知识库构建性能实测亮点 Dolphin 页面级、元素级解析准确率高采用 HAP 技术，多个元素并行处理，效率高于传统 pipeline 更适合 GPU 高性能部署场景 ⚙️ Mineru 在 Docling 测试中表现优异（GPU 上 0.21
3.7K10编辑于 2025-05-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

MinerU Docker 部署指南：PDF 结构化解析服务实践

基于MinerU的PDF解析API

国产开源的文档转换器:MinerU

内网环境在 RAGFlow 中使用 MinerU

MinerU的python接口使用例子

MinerU本地化部署教程——一款AI知识库建站的必备工具

MinerU、Magic-PDF、Magic-Doc

MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评（LLM & RAG数据准备）

CentOS 7 部署 OpenVPN

MinerU 生态实战_图片型PDF批量转Markdown

Centos7系统部署ELK配置部署

免费部署PDF转Markdown文件的方法

CentOS7 部署WordPress

CentOS 7 部署RabbitMQ 服务

CentOS7 部署 PostgreSQL

Activiti7 流程部署

CentOS 7 部署saltstack服务

CentOS 7 系统部署 RabbitMQ

开源的全能Markdown格式文件提取器：MinerU

字节跳动 Dolphin vs Mineru：哪个才是你的文档解析最优解？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐