作者: HOS(安全风信子) 日期: 2026-02-05 主要来源平台: ModelScope 摘要: DeepSeek-OCR-2 作为 DeepSeek 团队开源的第二代 OCR 模型,基于 根据 ModelScope 平台的最新动态,DeepSeek-OCR-2 采用了全新的技术架构,实现了语义推理级的文档理解能力,为各类文档处理场景提供了更强大的解决方案。 2. 技术深度拆解与实现分析 3.1 系统架构 DeepSeek-OCR-2 采用分层架构设计,主要包含以下核心组件: 系统架构说明: 输入层:负责文档图像的预处理和特征提取 编码层:采用 DeepEncoder 与主流方案深度对比 方案 架构 文档理解能力 复杂布局处理 多语言支持 推理速度 模型大小 结构化输出 开源程度 DeepSeek-OCR-2 DeepEncoder V2 语义推理级 优秀 优秀 快 -2 文档理解服务") as demo: gr.Markdown("# DeepSeek-OCR-2 文档理解服务") gr.Markdown("基于DeepSeek-OCR-2的文档理解服务
DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广,本次使用Qwen2的架构,解决看的全(扫码方式优化)、看的的准(内容识别、视觉标记、降低重复率),多裁剪策略提取核心信息。 继DeepSeek在自然语言处理领域掀起波澜之后,其于2026年1月27日开源的DeepSeek-OCR-2再次引发行业关注。 这两款模型代表了当前开源OCR技术的两大发展方向:DeepSeek-OCR-2主打视觉因果流(VisualCausalFlow)的创新架构,而HunyuanOCR则以极致轻量化+端到端统一见长。 一、DeepSeek-OCR-2:视觉因果流的革新1.1核心创新:DeepEncoderV2DeepSeek-OCR-2最引人注目的创新在于其DeepEncoderV2视觉编码器。 1.2模型规格与性能指标DeepSeek-OCR-2参数量3B视觉编码器DeepEncoderV2(基于Qwen2-0.5B)语言解码器DeepSeek3B-MoE-A570M支持分辨率动态分辨率,最高
如果说 Kimi K2.5 是把“看懂界面 → 写代码”这件事推到实用阶段,那 DeepSeek-OCR-2 则是在挑战一个更底层的问题: AI,能不能像人一样“读文档”? (PS:今天先着重分享 DeepSeek-OCR-2,至于 Kimi K2.5 放到后面有机会搭配 Kimi CLI 再为大家伙专门写一篇文章分享。) 所以 DeepSeek-OCR-2,它把视觉编码器换成了 Qwen2-0.5B。 这意味着,它用一个擅长因果推理的小型 LLM,去替代了擅长全局匹配的视觉模型。 在同等视觉 token 预算下,DeepSeek-OCR-2 的表现非常离谱。 因为它懂逻辑,所以它不需要像传统模型那样生成海量的 Patch Token 来覆盖全图。 /DeepSeek-OCR-2 • 论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
全面对比 四张配图是高度总结 本文详细文字分析 DeepSeek-OCR-2、HunyuanOCR、PaddleOCR-VL-1.5、GLM-OCR 1️⃣ DeepSeek-OCR-2 基本参数 参数项 真实场景鲁棒性 Real5-OmniDocBench(真实世界场景) 场景 PaddleOCR-VL-1.5 HunyuanOCR DeepSeek-OCR-2 GLM-OCR 扫描 ⭐⭐⭐⭐⭐ ⭐⭐⭐ 综合评分矩阵 评估维度 DeepSeek-OCR-2 HunyuanOCR PaddleOCR-VL-1.5 GLM-OCR 文档解析精度 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 真实场景鲁棒性 训练策略差异 DeepSeek-OCR-2:专注于视觉压缩和解码效率 HunyuanOCR:强调端到端训练,减少级联误差 PaddleOCR-VL-1.5:多任务联合训练,真实场景数据增强 GLM-OCR (生产就绪,性能最优) 备选:GLM-OCR(高精度需求)或 HunyuanOCR(多语言需求) 对于研究机构: 首选:GLM-OCR(公式表格最强) 备选:DeepSeek-OCR-2(创新架构研究)
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 /blob/main/DeepSeek_OCR2_paper.pdf 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek OCR /deepseek-ocr modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir . -version 根据本地版本选择PyTorch安装命令 克隆代码仓库: git clone https://github.com/deepseek-ai/DeepSeek-OCR-2.git cd DeepSeek-OCR
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2/ blob/main/DeepSeek_OCR2_paper.pdf模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
那么这一次新的DeepSeek-OCR-2模型解决的是什么问题呢?我们先来快速回顾一下DeepSeek-OCR是什么,然后你就知道为什么会有OCR-2模型的出现了。 因此DeepSeek-OCR-2的核心要解决的问题其实就是:能不能在把图像交给LLM之前,就先“学会怎么读这张图”?
还有系统基础环境太差,又不敢升级,昨天DeepSeek-OCR-2 本地部署,实测一文中我有提到。
记忆与因果视觉(2025末-2026初): 在DeepSeek-OCR-2中引入视觉因果流,在Engram架构中提出基于查表的可扩展条件记忆机制,试图从根本上突破Transformer的上下文长度限制与视觉理解的逻辑缺陷 DeepSeek-OCR-2:视觉因果流发布时间: 2026年1月27日核心定位: 下一代视觉理解模型技术创新: 视觉因果流(Visual Causal Flow)论文1:https://arxiv.org /abs/2601.20552 github2: https://github.com/deepseek-ai/DeepSeek-OCR-2 论文2:https://arxiv.org/abs/2510.18234github2 DeepSeek-OCR-2(3B参数)颠覆了这一范式,引入了视觉因果流概念。核心逻辑: 强制模型按照人类的阅读顺序(如从左到右、从上到下、先标题后正文)来处理视觉信息,而不是并行处理。
如果说 DeepSeek-OCR-2 的强项是“大脑”(用 LLM 理解逻辑),那么 PaddleOCR-VL-1.5 的强项就是 “眼睛”。它拥有目前地表最强的视觉鲁棒性。