
作为技术开发者,你是否常被 PDF 中的复杂公式、合并单元格表格困扰?传统 OCR 要么无法保留结构化信息,要么依赖大模型蒸馏导致性能受限。腾讯联合上海交通大学、清华大学开源的 POINTS-Reader,以无蒸馏的两阶段训练方案,成为端到端文档转换的新标杆,还斩获了 EMNLP 2025 主会收录认可。
文末获取快速集成指南
01
核心原理:两阶段自进化,摆脱蒸馏依赖

POINTS-Reader 的核心突破在于不依赖大模型蒸馏,通过自主训练掌握文档理解能力,整体架构分为两大关键阶段:
1.统一格式预热阶段(UWS)
腾讯团队为文档元素制定了统一输出标准:纯文本用 Markdown 语法,表格用 HTML 格式适配复杂合并单元格,数学公式采用 LaTeX 通用标准。随后通过大语言模型生成包含纯文本、公式、表格、多栏布局的四类合成数据,渲染成图文对照素材,让模型快速搭建基础文档转换能力。
2.迭代自我改进阶段(ISS)
合成数据训练后,模型进入真实数据适配环节。通过三重自动筛选机制保障数据质量:文本内容与传统 OCR 结果 F1 分数达标、表格行列数一致校验、LaTeX 公式语法合法性检查。筛选后的高质量数据用于重训练,形成 “标注 - 过滤 - 再训练” 的闭环,推动模型性能持续迭代。
3.视觉 - 语言融合架构
采用编码器 - 解码器设计,文档编码器提取图像视觉特征,文本解码器生成结构化输出,中间通过多模态融合层实现视觉与语言信息高效联动。这种设计打破传统 OCR “检测 - 识别” 的两阶段限制,实现文档元素定位与内容识别一体化处理。

02
核心优势:性能与效率双在线
1.无蒸馏自主进化,无偏见无依赖
不同于传统模型模仿 GPT-4 等 “老师模型” 的训练模式,POINTS-Reader 完全通过合成数据预热 + 真实数据自迭代完成训练。既避免继承教师模型的偏见,也不受制于外部模型更新节奏,实现真正的自主进化。
2.多元素高精度识别,结构化还原出色
在 OmniDocBench 评测中,中文任务得分 0.212、英文 0.133(分数越低越好),表格 TEDS 指标达 85.0 分,超越 PaddleOCR PP-StructureV3 等主流方案。公式识别准确率达 79.3%(中文)和 82.1%(英文),复杂合并单元格表格也能精准还原结构。
3.轻量化高吞吐,部署灵活适配广
采用 600M 参数的轻量化架构,搭配 SGLang 原生支持,单卡推理吞吐量是传统方案的 3.2 倍。在 NVIDIA A100 显卡上,单张 A4 文档处理仅需 0.8 秒,即将支持 vLLM 框架,适配单机部署、批量处理等不同算力需求。
4.极简易用,零后处理门槛
输入仅需固定提示词 + 文档图像,直接输出结构化字符串,无需额外后处理。提供 Python SDK 和桌面应用,无论是开发者集成还是普通用户使用,都能快速上手,大幅降低技术门槛。
03
实际应用:全场景覆盖,赋能多行业
POINTS-Reader 的适配场景广泛,从技术开发到行业落地,都能发挥高效价值:
1. 科研与学术场景
批量提取学术论文中的文本、公式和实验表格,自动转换为 Markdown+LaTeX 格式,方便科研人员整理文献、复用数据,准确率达到人工校对水平的 92%。
适配教材、期刊等多格式学术资料,解决多语言混排文档的识别难题,提升文献数字化效率。
2. 企业数字化转型场景
金融领域:处理银行票据、对账单、保险保单等文档,结构化提取关键信息,使票据处理效率提升 40%,错误率下降 58%。
法律与行政:对接合同、公文、电子证照等文件,精准还原排版结构和签章相关信息,助力合同审核、公文流转的自动化。
财务场景:识别增值税发票、报销凭证等票据,自动提取金额、项目等结构化数据,对接财务系统实现报销、记账自动化。
3. 开发者与产品集成场景
作为底层 OCR 模块,集成到知识库构建、智能问答系统中,提升非结构化文档的处理效率。
适配多端产品开发,可嵌入文档管理工具、办公协作软件、教育类应用,丰富产品的文档处理能力。
4. 日常办公与个人使用场景
普通用户通过桌面应用,无需编程即可将 PDF、扫描件、图片中的内容转换为可编辑文本和表格。
适用于简历整理、课件提取、资料归档等需求,解决传统 OCR 识别后格式混乱、需手动调整的痛点。
04
总结与展望
POINTS-Reader 以 “无蒸馏自进化” 的技术创新,重新定义了轻量级文档 OCR 的性能标准。其开源的两阶段训练策略,不仅为开发者提供了高性能工具,更为行业贡献了可复用的技术范式。
未来,腾讯混元团队将扩展日文、韩文等东亚语言支持,持续优化多场景适配能力。对于需要高效处理复杂文档的开发者和企业而言,这款开源模型无疑是降低技术成本、提升处理效率的优质选择。
关注我,回复reader获取快速集成指南
本文分享自 GetKnowledge+ 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!