首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • docling,强大的文档解析转换工具,开源免费!

    /docling? Docling的出现让这一过程缩短到几分钟…" 安装和使用 因为本人太菜,安装 过程可谓是大费周章,它本来是容易的 说明一下:如果你也是根据官网中的pip install docling进行安装,大致可能出现一些问题如下 python=3.11 # 激活 conda activate docling # 下载 pip install typer==0.9.0 click==8.1.7 pip install docling 按照上面的执行,应该就不会出现问题了,最后执行一下docling --help,如果不报错就没问题了。 docling .

    4.2K20编辑于 2025-05-31
  • 来自专栏大侠之运维

    种文档格式(如PDF、DOCX、PPTX等)转换为markdown或json

    特点Docling 拥有众多引人注目的特点,使其在众多文档处理工具中脱颖而出:多格式支持:Docling 支持多种文档格式的读取,用户可以轻松处理不同类型的文档,无需担心格式兼容性问题。 如何快速开始要开始使用 Docling,用户只需简单几步即可完成安装和初步使用。以下是快速入门的步骤:安装 Docling:用户可以通过 Python 的包管理器 pip 安装 Docling。 在终端中输入以下命令即可完成安装:安装 Docling:用户可以通过 Python 的包管理器 pip 安装 Docling。 提供了丰富的功能和选项,用户可以通过查阅官方文档,了解更多高级功能和使用技巧,充分发挥 Docling 的强大能力。 Docling是一个结合技术与学术的创新典范,它的诞生为语言学研究带来了前所未有的便利与突破。无论你是一名学者、开发者,还是对语言技术充满好奇的探索者,Docling都为你提供了无限可能。

    2.1K10编辑于 2024-11-25
  • 来自专栏HuggingFists

    HuggingFists: 无代码处理复杂PDF

    于是,HuggingFists整合了Docling技术,帮助使用者应对复杂PDF的解析场景。选用Docling还有一个重要的原因,就是其部分转换功能可以在纯CPU的环境中运行完成。 环境中按照如下步骤安装Docling。 执行su root命令,输入密码12345678,切换到root用户下在oyez系统中运行pip install docling安装docling。如果你的机器能够翻墙,那么打开翻墙通道,安装完成。 pwd=1234”的包到当前目录,解压Docling.zip包。该包中包含Docling运行所需的部分模型。对于无法翻墙的用户,运行时无法下载到对应模型。故而无法正常运行Docling。 结语 Docling内置了很多功能配置项,但是Docling算子只封装了其中的一部分。如果希望调整和配置更多的配置项,可以试着去修改算子的Python脚本片段。

    43500编辑于 2025-07-07
  • 来自专栏翩翩白衣少年

    开源本地文档翻译神器,完美保留原格式,还能自动生成术语表(带一键安装包)

    • PDF表格、公式、代码识别:凭借docling、minerupdf解析引擎实现对学术论文中经常出现的表格、公式、代码的识别与翻译 • json翻译:支持通过json路径(jsonpath-ng语法规范 • 小体积、多平台懒人包支持:不到40M的windows、mac懒人包(不使用docling本地解析pdf的版本)。 DocuTranslate_full: 完整版,内置 docling 本地PDF解析引擎,需要本地解析pdf选这个版本。 pip安装 # 基础安装 pip install docutranslate # 如需使用 docling 本地解析PDF pip install docutranslate[docling] 启动

    31410编辑于 2026-03-16
  • 来自专栏福大大架构师每日一题

    agno v2.5.10 更新解析:并行搜索、全链路可观测性、多平台通信接口全面进化

    四、Docling Reader:文档处理能力全面增强 1. 集成 Docling 文档处理库 本次版本新增 Docling Reader,作为全新的文档读取与解析组件。 对 Agent 与 Workflow 的意义 Docling Reader 的加入,使得: • Agent 可以更高效地处理企业文档 • 文档类 Workflow 的可扩展性显著提升 • 为后续检索增强生成与知识问答奠定基础 并不是一次简单的功能叠加,而是一次 面向生产、面向多平台、面向复杂 Agent 系统 的系统级升级: • 并行搜索与检索让 Agent 更快、更准 • MLflow 可观测性让 Agent 更可控、更可信 • Docling

    7610编辑于 2026-03-31
  • 征服PDF:超越纯文本的文档理解技术

    在实践示例中,将使用spaCy、新的Docling库以及布局分析模型。 Docling链接:用于处理PDF、Word文档及类似格式的开源库和模型,包含布局分析、OCR和表格结构识别功能。 spaCy Layout链接:用于使用spaCy处理PDF、Word文档等的开源库和插件,由Docling驱动。 Docling技术报告链接:Auer等人,2024年。TableFormer:使用Transformers进行表格结构理解链接:Nassar等人,2022年。

    10710编辑于 2026-01-24
  • 来自专栏RAG

    收藏!RAG核心工具大全: 7大解析工具+向量模型+数据库+检索排序

    Docling:IBM的企业级多模态文档理解框架GitHub:https://github.com/docling-project/docling官方文档:https://docling-project.github.io /docling/HuggingFace:https://huggingface.co/ibm-granite/granite-docling-258M适用场景:AgenticRAG(需要理解文档结构供 Docling不仅仅是一个解析器,定义了一种统一的文档对象模型,旨在为AgenticRAG(代理式RAG)提供结构化支撑。 在构建复杂RAGAgent时,Docling可作为工具被动态调用,按用户意图提取指定信息。 层级切块:利用Docling或MinerU输出的结构化信息(Header,Section),先按章节切大块,再在大块内切小块。

    55710编辑于 2026-02-13
  • 来自专栏自然语言处理

    6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?

    ✅ 企业级安全合规,支持 API 和图形界面 ❌ 依赖 GPU,表格处理速度较慢,配置复杂 Docling 项目地址:https://github.com/DS4SD/docling 技术架构:

    3.8K00编辑于 2025-03-02
  • 开源AI工具升级加速LLM与扩散模型在NVIDIA RTX PC的性能

    对于检索增强生成,某中心与Docling建立了合作——这是一个用于将文档摄取、分析和处理成机器可理解语言以供检索增强生成管道使用的软件包。 Docling针对RTX PC和高性能计算系统进行了优化,与CPU相比可提供4倍的性能。 使用Docling有两种方式:传统OCR管道:这是一个库和模型的管道,通过PyTorch-CUDA在RTX上加速。

    27510编辑于 2026-01-30
  • 来自专栏福大大架构师每日一题

    RAGFlow v0.22.0 发布:数据源同步、变量聚合、全新管理界面与多项重大更新

    • 解析管线新增 Docling 文档解析器。 • 新增管理 Web UI 仪表盘,用于图形化用户管理及服务状态监控。 2. 智能代理(Agent) • 支持结构化输出。 六、更新详情(包含所有改进与修复) • 新增 Docling 解析器。 • 测试文件迁移。 • 停止发布完整镜像版本。 • MinerU 与 Docling 集成。 • 修复图标替换相关问题。 • 调整代理操作表单样式。 • 更新 MinerU 设置指南。

    69910编辑于 2025-12-19
  • 来自专栏周拱壹卒

    Ilya Rice: How I Won the Enterprise RAG Challenge

    The best-performing parser for the RAG Challenge turned out to be the relatively known Docling[7]. Parser Customization Despite its excellent results, Docling lacked some essential capabilities. Apparently, Docling parses tables from PDFs well enough, the retriever finds them effectively, and the https://github.com/IlyaRice/RAG-Challenge-2/blob/main/data/erc2_set/answers_1st_place_o3-mini.json [7] Docling : https://github.com/DS4SD/docling [8] this research paper: https://arxiv.org/pdf/2402.17944 [9] tables_serialization.py

    13310编辑于 2026-03-16
  • 使用spaCy处理PDF和Word文档的技术指南

    spaCy Layout:使用spaCy处理PDF、Word文档等该插件与Docling集成,将PDF、Word文档和其他输入格式的结构化处理引入spaCy管道。

    21410编辑于 2025-10-30
  • 来自专栏四楼没电梯

    字节跳动 Dolphin vs Mineru:哪个才是你的文档解析最优解?

    项目数据预处理和知识库构建 性能实测亮点 Dolphin 页面级、元素级解析准确率高 采用 HAP 技术,多个元素并行处理,效率高于传统 pipeline 更适合 GPU 高性能部署场景 ⚙️ Mineru 在 Docling

    3.6K10编辑于 2025-05-29
  • 来自专栏Datawhale专栏

    LLM 工程师工具箱:120+大模型库全攻略!

    Docling Docling parses documents and exports them to the desired format with ease and speed.

    74700编辑于 2025-04-04
  • 来自专栏文档开发

    文档开发组件Aspose 26.1更新:兼容.net 10、修复显示数据问题

    在文档转换能力方面,引入了 Docling JSON 导出格式,允许 Word 文档按层次结构序列化为 JSON。该输出形式便于在需要对文档内部结构进行深度检索、分析或二次处理的场景中使用。2.

    15010编辑于 2026-01-20
  • 来自专栏云云众生s

    RamaLama项目将容器和AI结合在一起

    接下来,我们正在积极帮助用户使用 Docling 和 Llama Stack 等开源工具将其静态文档转换为检索增强生成 (RAG) 数据库。

    49510编辑于 2025-03-20
  • 来自专栏NLP/KG

    技术前沿综述:RAG领域的重要进展与创新亮点

    如今,类似的系统已经有多个,例如 MinuerU【参考 2】,Docling【参考 3】等等。将文档智能用于 RAG ,是个广阔的方向,因此这类工作的迭代大大加速。 PaddleOCR [https://github.com/PaddlePaddle/PaddleOCR/] MinerU [https://github.com/opendatalab/MinerU] Docling [https://github.com/DS4SD/docling] Nougat [https://github.com/facebookresearch/nougat] GOT-OCR [https

    2.7K23编辑于 2025-04-23
  • 来自专栏自然语言处理

    RAG 挑战赛冠军方案解析:从数据解析到多路由器检索的工程实践,推荐阅读!

    在 RAG 挑战赛中表现最好的解析器是相对知名的 Docling。有趣的是,它的开发方是比赛的协办方之一——IBM。 文件解析优化 尽管 Docling 的结果非常优秀,但它缺乏一些基本能力。 显然,Docling 从PDF 解析表格的能力足够好,检索器也能有效地找到它们,而 LLM 在没有额外帮助的情况下也能充分理解它们的结构。而向页面添加更多文本只会降低信噪比。

    1.3K20编辑于 2025-05-22
  • 来自专栏自然语言处理

    2024年RAG:回顾与展望

    | | Docling | 多格式文档解析和导出工具,支持高级PDF理解和OCR功能。

    1.9K20编辑于 2025-01-01
  • AI日报 - 2024年04月22日

    6.4 IBM Docling️ 适用场景:任意格式文档(尤其是PDF)的数据提取与处理、文档理解、非结构化数据转结构化数据 ● 核心功能: ▸ 通用文档解析:支持多种文档格式,特别是强大的PDF

    25900编辑于 2025-04-21
领券