腾讯开源 POINTS-Reader：无蒸馏端到端，文档 OCR 技术新突破

LiuDag

发布于 2025-12-31 08:32:18

3650

作为技术开发者，你是否常被 PDF 中的复杂公式、合并单元格表格困扰？传统 OCR 要么无法保留结构化信息，要么依赖大模型蒸馏导致性能受限。腾讯联合上海交通大学、清华大学开源的 POINTS-Reader，以无蒸馏的两阶段训练方案，成为端到端文档转换的新标杆，还斩获了 EMNLP 2025 主会收录认可。

文末获取快速集成指南

核心原理：两阶段自进化，摆脱蒸馏依赖

POINTS-Reader 的核心突破在于不依赖大模型蒸馏，通过自主训练掌握文档理解能力，整体架构分为两大关键阶段：

1.统一格式预热阶段（UWS）

腾讯团队为文档元素制定了统一输出标准：纯文本用 Markdown 语法，表格用 HTML 格式适配复杂合并单元格，数学公式采用 LaTeX 通用标准。随后通过大语言模型生成包含纯文本、公式、表格、多栏布局的四类合成数据，渲染成图文对照素材，让模型快速搭建基础文档转换能力。

2.迭代自我改进阶段（ISS）

合成数据训练后，模型进入真实数据适配环节。通过三重自动筛选机制保障数据质量：文本内容与传统 OCR 结果 F1 分数达标、表格行列数一致校验、LaTeX 公式语法合法性检查。筛选后的高质量数据用于重训练，形成 “标注 - 过滤 - 再训练” 的闭环，推动模型性能持续迭代。

3.视觉 - 语言融合架构

采用编码器 - 解码器设计，文档编码器提取图像视觉特征，文本解码器生成结构化输出，中间通过多模态融合层实现视觉与语言信息高效联动。这种设计打破传统 OCR “检测 - 识别” 的两阶段限制，实现文档元素定位与内容识别一体化处理。

核心优势：性能与效率双在线

1.无蒸馏自主进化，无偏见无依赖

不同于传统模型模仿 GPT-4 等 “老师模型” 的训练模式，POINTS-Reader 完全通过合成数据预热 + 真实数据自迭代完成训练。既避免继承教师模型的偏见，也不受制于外部模型更新节奏，实现真正的自主进化。

2.多元素高精度识别，结构化还原出色

在 OmniDocBench 评测中，中文任务得分 0.212、英文 0.133（分数越低越好），表格 TEDS 指标达 85.0 分，超越 PaddleOCR PP-StructureV3 等主流方案。公式识别准确率达 79.3%（中文）和 82.1%（英文），复杂合并单元格表格也能精准还原结构。

3.轻量化高吞吐，部署灵活适配广

采用 600M 参数的轻量化架构，搭配 SGLang 原生支持，单卡推理吞吐量是传统方案的 3.2 倍。在 NVIDIA A100 显卡上，单张 A4 文档处理仅需 0.8 秒，即将支持 vLLM 框架，适配单机部署、批量处理等不同算力需求。

4.极简易用，零后处理门槛

输入仅需固定提示词 + 文档图像，直接输出结构化字符串，无需额外后处理。提供 Python SDK 和桌面应用，无论是开发者集成还是普通用户使用，都能快速上手，大幅降低技术门槛。

实际应用：全场景覆盖，赋能多行业

POINTS-Reader 的适配场景广泛，从技术开发到行业落地，都能发挥高效价值：

1. 科研与学术场景

批量提取学术论文中的文本、公式和实验表格，自动转换为 Markdown+LaTeX 格式，方便科研人员整理文献、复用数据，准确率达到人工校对水平的 92%。

适配教材、期刊等多格式学术资料，解决多语言混排文档的识别难题，提升文献数字化效率。

2. 企业数字化转型场景

金融领域：处理银行票据、对账单、保险保单等文档，结构化提取关键信息，使票据处理效率提升 40%，错误率下降 58%。

法律与行政：对接合同、公文、电子证照等文件，精准还原排版结构和签章相关信息，助力合同审核、公文流转的自动化。