首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏轩辕镜像

    MinerU Docker 部署指南:PDF 结构化解析服务实践

    本指南将以Docker容器化部署为核心,详细介绍MinerU在vLLM等加速后端场景下的部署方式,包括环境准备、镜像拉取、服务启动、功能验证以及生产环境配置建议,帮助用户快速构建稳定、可复现的MinerU 以下分别介绍这三种服务的部署方法。1.vLLM后端服务部署vLLM后端服务是MinerU的核心组件,提供高性能的文档解析与处理能力。 dockerlogsmineru-vllm-server-f#查看特定数量的日志dockerlogsmineru-vllm-server--tail100#查看指定时间段的日志dockerlogsmineru-vllm-server--since2023-11 -01T00:00:00--until2023-11-02T00:00:00对于DockerCompose部署:展开代码语言:BashAI代码解释#查看所有服务日志dockercomposelogs#查看特定服务日志 Kubernetes环境中部署,以获得更强大的编排和管理能力通过本文提供的指南,相信您已能够顺利部署和使用MinerU容器化应用。

    2.3K20编辑于 2025-12-31
  • 来自专栏自然语言处理

    基于MinerU的PDF解析API

    基于MinerU的PDF解析A - MinerU的GPU镜像构建 - 基于FastAPI的PDF解析接口 支持一键启动,已经打包到镜像中,自带模型权重,支持GPU推理加速,GPU速度相比CPU每页解析要快几十倍不等 进行表格识别; 光学字符识别:使用PaddleOCR进行文本识别; 镜像地址: 阿里云地址:docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru :0.2-models dockerhub地址:docker pull quincyqiang/mineru:0.2-models 启动命令: docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models 具体截图请见博客:https://cloud.tencent.com/developer/article

    2.5K11编辑于 2024-11-23
  • 来自专栏姓王者的博客

    国产开源的文档转换器:MinerU

    简介 MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器 支持PDF、Word、PPT等多种文档的智能解析,可用于机器学习、大模型语料生产、RAG等场景 特点 多语种支持 多类型支持 ,导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : ( 总结 总体来说效果还是不错的,未来应该会推出更多的格式转换 推荐大家试一试,有硬件条件的可以本地部署一个玩玩

    86910编辑于 2025-03-28
  • MinerU的python接口使用例子

    参考官方例子:mineru.readthedocs.io/en/latest/user_guide/quick_start/to_markdown.html 本地文件例子: import os from

    70910编辑于 2025-07-22
  • 来自专栏Dotnet Dancer

    MinerU本地化部署教程——一款AI知识库建站的必备工具

    前言:来一个官方一点的介绍:MinerU是一个一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。 MinerU可以用来做什么? 下载minerU,客户端版本下载地址: https://mineru.net/ 安装完成以后,可以直接上传文件进行解析。注意,这儿上传的文件,会被传输到远程的线上默认环境进行解析。 但是使用客户端的minerU,毕竟文档会被上传到云端,如果遇到私密的文档,还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题,毕竟本地才最安全。接下来开始本地化部署操作教程。 conda create -n mineru python=3.10 创建成功以后,激活conda环境。 conda activate mineru 安装magic-pdf环境,主要解析工具是这个。 以上就是minerU本地安装配置的全部过程。没了。

    11.5K10编辑于 2025-03-29
  • 来自专栏python前行者

    MinerU、Magic-PDF、Magic-Doc

    关于 MinerU MinerU 是一款一站式、开源、高质量的数据提取工具,主要包含以下功能: Magic-PDF PDF文档提取 Magic-Doc 网页与电子书提取 github: https:// github.com/opendatalab/MinerU/blob/master/README_zh-CN.md 在线体验地址: https://opendatalab.com/OpenSourceTools /Extractor/PDF https://www.modelscope.cn/studios/OpenDataLab/MinerU Magic-PDF 简介 Magic-PDF 是一款将 PDF 安装magic-pdf conda create -n MinerU python=3.10 conda activate MinerU pip install -U magic-pdf[full] - 存放图片目录 ├── some_pdf_layout.pdf # layout 绘图 ├── some_pdf_middle.json # minerU

    3.1K10编辑于 2024-11-24
  • 来自专栏周拱壹卒

    内网环境在 RAGFlow 中使用 MinerU

    本文可作为 使用教程:如何在 RAGFlow 中使用 MinerU[1] 的补充,介绍如何在内网环境下配置 MinerU 解析器以供 RAGFlow 使用。 前提假设 已通过 docker 的形式在内网环境部署 RagFlow RAGFlow 版本 >= v0.21.1 有内网环境 pip 源 安装 MinerU 更新 .env 文件 在 .env[2] 文件中添加如下内容 : MINERU_EXECUTABLE=/ragflow/uv_tools/.venv/bin/mineru MINERU_MODEL_SOURCE=local 其中 MINERU_MODEL_SOURCE 创建 mineru.json 根据 MinerU 配置模板[4] 或下面内容,创建 mineru.json 配置文件,放在 volume 路径下供后面 docker-compose.yml 中使用: { /volume/mineru.json:/root/mineru.json + - .

    54610编辑于 2026-03-16
  • 来自专栏AI进修生

    MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评(LLM & RAG数据准备)

    部署实操了下面这几个近期流行的LLM OCR工具: MinerU MinerU曾在一两周前上过Github Trending榜,并且持续了好几天。 但是Doc2X可以很好的识别出来: 不过MinerU在公式识别上还不错,至少不会像OmniParse那样将原字符识别错误。 要在本地部署他大约需要8G显存,如果你用cpu的话它将变得非常慢。 我建议你在linux上部署MinerU,因为我在windows部署它时,出现了cpu运行正常,gpu不正常的情况(对环境依赖版本有要求,你可以issue中查看),并且他的部署下载过程会比较久,因为他要下载大模型文件 它有众多的导出形式 你最好选择$$,浙江更好地显示latex公式 但是他也有缺点他并不开源,并且无法本地部署,意味着你只能将数据交给云端。 Doc2X官网 https://doc2x.noedgeai.com/ 参考链接: [1] MinerU:https://github.com/opendatalab/MinerU [2] omniparse

    8.2K10编辑于 2024-12-02
  • MinerU 生态实战_图片型PDF批量转Markdown

    MinerU 在这方面效果很好,版面分析、公式识别、表格结构化都能处理,但本地部署门槛不低——GPU、几个 G 的模型文件、CUDA 和 PyTorch 版本对齐,光配环境就可能折腾半天。 Token 在 mineru.net/apiManage/token 免费申请,支持最大 200MB / 200 页:from mineru import MinerUclient = MinerU(" LaTeX / JSONMD / DOCX / HTML / LaTeX / JSON编程集成原生 Python 对象,.markdown .images 直接用stdout 文本流,管道友好和本地部署怎么选云端方案 本地部署(pip install magic-pdf[full])适合数据不能出内网的场景:完全离线运行,但需要 GPU(推荐 8GB+ 显存)和比较折腾的环境配置。 相关链接MinerU 生态主页:mineru.net/ecosystemPython SDK:GitHubCLI 工具:GitHubAPI Token 申请:mineru.net/apiManage/tokenAPI

    1700编辑于 2026-04-16
  • 来自专栏菲宇

    docker上部署odoo11

    run -d -e POSTGRES_USER=odoo -e POSTGRES_PASSWORD=odoo --name db postgres:9.4 二、安装odoo 1、拉取一个odoo:11 的镜像 docker pull odoo:11 2、制作并运行一个odoo容器,端口映射一个端口。 docker run -p 8069:8069 --name odoo --link db:postgres -t odoo:11 注意:db不能修改,否则odoo运行时会报错。

    1.4K10编辑于 2022-12-21
  • 来自专栏用户中心项目

    DAY-11-项目部署

    部署 1.多环境:指同一套项目代码在不同的阶段根据实际情况来调整配置部署到不同的机器上 lombok在编译时已经写好了 why: 每个环境互不影响; 区分不同的阶段:开发/测试/生产 对项目进行优化: Dmaven.test.skip=true" 拖到虚拟机里 chmod a+x user-center-backend-0.0.1-SNAPSHOT.jar(a+x,给所有文件可执行权限) 创建表的语句时建议保存起来 2.项目部署上线 原始前端后端项目 宝塔Linux 容器(把原本部署在服务器上的东西封装成更轻量的应用在服务器上运行) 容器平台 项目部署 需要Linux服务器(建议用Centos8+/7.6以上) 前端:需要web

    19500编辑于 2025-10-23
  • 来自专栏《Cloud Studio》

    免费部署PDF转Markdown文件的方法

    83e02aec0842b1f638728f53ee5e98f9&sharer_shareinfo_first=83e02aec0842b1f638728f53ee5e98f9&version=4.1.33.99589&platform=mac#rd免费部署 MinerU关于PDF转Markdown的工具,一个比较不错的工具是MinerU,这是一个开源免费的转换工具。 Github地址是:https://github.com/opendatalab/MinerU,同时也给了官网Demo地址:https://mineru.net/,在官网Demo地址上同样可以免费体验, 一般来说,这种PDF转换工具,对硬件的要求都比较高,比如MinerU就给出了推荐的硬件配置,其中内存建议32G以上。为了更好的体验MinerU的功能,我们选择云服务器来部署。 Cloud Studio我们使用腾讯云的Cloud Studio来部署,腾讯云是专业的云服务器提供商,而腾讯云推出的 Cloud Studio,相当于在服务器机器之上提供了开发环境,开发模板,主流模型等

    1.5K00编辑于 2025-03-13
  • 来自专栏翩翩白衣少年

    开源的全能Markdown格式文件提取器:MinerU

    大家好,今天要给大家推荐一款堪称全能的开源Markdown格式文件提取器—MinerUMinerU项目介绍 MinerU 是一款一站式的高质量数据提取工具,主要功能包括从PDF、网页和电子书中提取数据,并将其转换为Markdown格式。 Markdown 至于使用的方式,最方便的当然是官方在线Demo: https://opendatalab.com/OpenSourceTools/Extractor/PDF 也可以自己依据项目说明进行本地或在线部署 ,毕竟人家是开源的(不过部署起来有些许麻烦,涉及许多配置及模型) 具体的需访问GitHub项目主页(https://github.com/opendatalab/MinerU),根据文档进行安装配置,即可开始使用 结语 总的来说,MinerU是一款非常实用且强大的数据提取工具。无论你是开发者、互联网从业者,还是有具体需求的新人小白,MinerU都能极大地提升你的工作效率,让你专注于更有价值的工作。

    2.1K10编辑于 2024-08-13
  • 来自专栏四楼没电梯

    字节跳动 Dolphin vs Mineru:哪个才是你的文档解析最优解?

    一句话总结 Dolphin 更适合研究和多模态文档解析,Mineru 更适合实际生产和多类型文档处理。 快速对比:Dolphin vs Mineru 对比维度 Dolphin Mineru 发布机构 字节跳动 Bytedance 上海人工智能实验室 OpenDataLab 发布时间 2025 年 5 OCR 核心特点 支持扫描 PDF:内置 OCR 模块,支持 84 种语言; 模块化设计:从解析、校对到导出全流程打通; 输出灵活:支持 Markdown、结构化 JSON,多种中间格式方便二次处理; 部署简单 MinerU 使用文档:MinerU 文档中心 适用场景 各类生产环境文档自动化处理 OCR 文档、合同扫描件、旧档案清洗 NLP 项目数据预处理和知识库构建 性能实测亮点 Dolphin 页面级 、元素级解析准确率高 采用 HAP 技术,多个元素并行处理,效率高于传统 pipeline 更适合 GPU 高性能部署场景 ⚙️ Mineru 在 Docling 测试中表现优异(GPU 上 0.21

    3.7K10编辑于 2025-05-29
  • MinerU JSTS SDK 深度指南:JavaScriptTypeScript 开发者的 PDF文档解析利器

    MinerU 是什么MinerU 是上海人工智能实验室开源的一站式文档解析工具,基于视觉语言模型(VLM)架构,能够将 PDF、图片、Word、PPT、Excel 等任意格式的文档转换为结构化的 Markdown token:import { MinerU } from "mineru-open-sdk";const client = new MinerU(); // 自动读取 MINERU_TOKEN方式二: 代码中显式传入import { MinerU } from "mineru-open-sdk";const client = new MinerU("your-api-token");如果没有传入 token import { MinerU } from "mineru-open-sdk";const client = new MinerU();const result = await client.flashExtract import { MinerU } from "mineru-open-sdk";const client = new MinerU("your-api-token");const result = await

    13310编辑于 2026-04-14
  • 来自专栏开源部署

    如何在Ubuntu 18.04上部署Odoo 11

    =/opt/odoo/odoo11-venv/bin/python3 /opt/odoo/odoo11/odoo-bin -c /etc/odoo11.conf StandardOutput=journal 您可以使用以下命令检查服务状态: sudo systemctl status odoo11 输出: ● odoo11.service - Odoo11   Loaded: loaded (/etc/systemd .service           └─18351 /opt/odoo/odoo11-venv/bin/python3 /opt/odoo/odoo11/odoo-bin -c /etc/odoo11 为了使我们的Odoo部署最安全,我们将Nginx配置为一个SSL终止代理,它将通过HTTPS提供流量。 SSL终止代理是处理SSL加密/解密的代理服务器。 对于生产部署,建议切换到多处理服务器,因为它可以提��稳定性并更好地使用系统资源。 为了启用多处理,我们需要编辑Odoo配置并设置非零数量的工作进程。

    2.7K20编辑于 2022-07-13
  • 来自专栏超详细二进制部署k8s系列[19]篇

    二进制部署k8s教程11 - 部署kubelet

    TIP二进制部署 k8s - 部署 kubelet 手动颁发证书方式***转载请注明出处:https://janrs.com/24e1有任何问题欢迎在底部评论区发言。部署 kubelet! NOTE部署 kubelet 之前需要初始化系统环境。在 node 节点上,kubelet 是需要对外提供服务的。在 k8s 中,调用 kubelet 服务的也只有 kube-apiserver。 NOTE这里部署的 node 节点的 ip 地址为:172.16.222.231。生成的 server 证书只针对该服务器生成。 ,有可能需要删除已经生成的工作数据rm -rvf /var/lib/kubelet/*11.检测到 master 服务器查看节点是否加入kubectl get nodes显示NAME STATUS 后面再部署网络插件。***至此。node 节点的 kubelet 部署成功。转载请注明出处:https://janrs.com/24e1有任何问题欢迎在底部评论区发言。

    1.2K10编辑于 2023-03-08
  • 来自专栏从ORACLE起航,领略精彩的IT技术。

    Oracle 11g ADG 部署(duplicate)快速参考

    本文旨在指导客户完成Oracle 11g的ADG部署工作,主库环境已具备,备库环境已安装完成数据库软件。 主库参数文件修改 4.创建SRLs 5.备份数据库 6.创建备库参数 7.更新tnsnames.ora文件 8.拷贝主库RMAN备份和参数文件到备库 9.拷贝主库密码文件到备库 10.创建备库需要的目录 11 13.备库启动实例到nomount状态 14.初始化standby数据库 15.确认数据库各类文件路径 16.创建spfile然后使用spfile启动数据库 17.启动MRP,验证DG同步成功 18.部署定时任务进行历史归档清理 因为备库没有备份任务,为防止后续备库端归档满,需要部署定时任务进行历史归档清理,下面给出一个示例: mkdir /home/oracle/scripts cd /home/oracle/scripts ADG 部署(duplicate)整个过程已完成。

    2.3K22发布于 2020-07-15
  • 来自专栏LEo的网络日志

    11 May 2024 在rosa部署alb和waf

    role_arn = $ROLE_ARN web_identity_token_file = /var/run/secrets/openshift/serviceaccount/token EOF 部署 cluster spec: credentials: name: aws-load-balancer-operator enabledAddons: - AWSWAFv2 EOF 验证部署

    35910编辑于 2024-05-16
  • MinerU LangChain 集成深度指南:一行代码搞定 PDF 到 RAG

    MinerU 是什么MinerU 是上海人工智能实验室开源的一站式文档解析工具,基于视觉语言模型(VLM)架构,能够将 PDF、图片、Word、PPT、Excel 等任意格式的文档转换为结构化的 Markdown langchain-mineruMinerU 官方维护的 LangChain 文档加载器(Document Loader)。 如需图片/JSON/DOCX/HTML/LaTeX 等多元输出,请使用 MinerU Python SDK。 Precision 模式 Token 申请Token 可在 MinerU API 管理平台 免费申请。 /MinerU-Ecosystem/tree/main/sdk/pythonAPI 文档:https://mineru.net/apiManage/docsToken 申请:https://mineru.net

    3500编辑于 2026-04-16
领券