就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。 本文将带领大家部署在cloudstudio 利用免费时长的GPU资源部署一下带 web 端的项目,一睹为快。 解决什么问题? “一图胜千言”。 DeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com 要部署的现有 web 项目。
在Lab4AI平台,你只需3分钟即可私有部署,让系统从识字工具跃升为“文档理解专家”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 DeepSeek-OCR架构拆解DeepSeek-OCR的强大性能源于“压缩+解码”的精妙架构设计,两大核心模块各司其职、高效配合:1.DeepEncoder:双阶段视觉压缩引擎(AI光学压缩器)它负责把复杂文档图像 3分钟极速部署体验Lab4AI.cn上已上架了此篇论文的部署。 Step2模型部署参考官方文档完成模型部署,系统完成推理服务上线,跳转链接即可体验。Step3应用体验您可以可上传文档进行测试。本次实践支持从文字提取到表格解析再到图表与语义定位的全流程交互。
DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验 DeepSeek-OCR 官方项目 README: https://github.com 我看网上大家根据官方文档进行部署,问题多多。正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 的部署和 API 使用。 v0.11.2 拉取镜像 然后 docker save -o vllm012.tar vllm/vllm-openai:v0.11.2 把镜像保存到本地后传入内网服务器即可 至此 vLLM 升级完成 部署 DeepSeek-OCR 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了
部署 DeepSeek-OCR Client 目前主要针对 Windows 10/11操作系统进行了优化,并支持CUDA加速,这意味着拥有NVIDIA GPU 的用户将获得最佳性能。 其部署过程也力求简化: 系统环境: 需要 Node.js 18+ 和 Python 3.12+。 环境,部署和启动更为直接简单。 DeepSeek OCR App: 优势: 基于 Web 界面(React 前端+FastAPI 后端),支持 Docker 容器化部署,跨平台能力更强。 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。
(GitHub[4]) 二、怎么部署官方模型? (GitHub[11]) 四、三款社区 WebUI 横评 下面我们对你给出的 3 个开源 WebUI 做一个“从部署门槛→功能点→适合谁”的系统对比。 (GitHub[20])•适合谁:•需要 Docker 化、一键部署,并希望能二次开发或接入企业网关/日志/鉴权体系的工程团队;•想要“可维护”的全栈脚手架,用来做内部服务或 SaaS 雏形。 一句话点评:工程化最好、部署最省心,上容器就能跑,还留足了二开的“地基”。 (GitHub[24])•适合谁:•想要“更偏产品化”的体验:例如直接做 PDF→Markdown、表格/图表抽取、专业图纸理解,而不想自己写一堆上层逻辑的用户/团队;•对“Linux 部署 + 一键脚本
突然开源了 DeepSeek-OCR——一个能将任意 PDF 或图像一键转为结构化 Markdown 的视觉语言模型。 一、开源 OCR 的“甜蜜陷阱”我们第一时间接入 DeepSeek-OCR,却发现理想与现实之间隔着三座大山:1.部署即深渊虽然官方提供了 Transformers 和 vLLM 两种推理方式,但要在生产环境同时支持高分辨率扫描件 Vision(低延迟优先)部署复杂度下降 80%,工程师终于不用再写“模型适配器”了。 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本 如果你也拥有一个惊艳的开源模型,却困于部署、调度与成本的泥潭——是时候让它接入真正的 AI 中枢了。
的部署和使用的。 因为,我找到了更好的后端部署管理的方式。 后端部署管理 deepseek-ocr.rs Rust 实现的 DeepSeek-OCR 推理栈,提供快速 CLI 与 OpenAI 兼容的 HTTP Server,统一打包多种 OCR 后端、视觉输入预处理 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。 paddleocr-vl-q6k paddleocr-vl Q6_K 通用推荐,适合绝大多数工程部署。
多个技术博客与评测也复现了“10× 压缩 ≈ 96–97% 精度”这一经验数字,并给出了从部署到跑通示例的实践记录。 (Hugging Face[5]) 适用场景:生产级文档数字化/结构化、RAG 前置解析、跨语言票据/合同/学术 PDF、公式与表格抽取;核心价值:轻量、快、准、易部署。 (Tom's Hardware[10])4.部署要点:官方权重基于 PyTorch/CUDA;社区有在小型 GPU 上“抠细节跑通”的实践记录,可参考。 (Hugging Face[12])2.资源与延迟:0.9B 规模+ 动态分辨率让它在边缘/轻量场景也能跑,满足工程部署与吞吐的实际诉求。 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。
就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 其在Fox benchmarkd 目前可用vllm和transfomer部署,然后就像正常的文档解析模型一样。 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 ,支持本地图片和 PDF 文件 ✅DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版✅DeepSeek-OCR 本地部署(下):vLLM 离线推理,API 重写 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 感兴趣的同学可以试试,OCR 模型 API 部分替换成官方/第三方的 API,代码稍作修改就可以在线部署运行了。 #! ": "http://localhost:8002/models/v1//deepseek-ocr/inference", "PaddleOCR": "http://localhost:8003
因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL 而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样 PaddleOCR Github上的部署教程来部署到本地。 只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。
“DeepSeek-OCR:Contexts Optical Compression。探索视觉-文本压缩的边界。” 开源可部署开源代码 + 模型权重,MIT 许可证。可自建、自控、安全可审。 开源部署能力模型权重、代码、文档公开,自建部署支持安全与定制。 与同类项目对比及产品优势项目识别结构化能力长文档/批量处理输出格式开源&可部署优势总结DeepSeek-OCR强(支持标题、表格、图注)很强(文档压缩+批量)Markdown/文本✅最佳结构化输出+可部署 开源自部署:适合企业、机构构建私有化流程,降低 SaaS 风险。输出格式友好:Markdown 输出方便编辑、检索、二次加工。
2025 年 11 月 19 日,Ollama 发布了 v0.13.0 版本,本次更新带来了多个重要的新特性与性能优化,包括全新的 DeepSeek-OCR 模型支持、Cogito-V2.1 模型上线、 DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 the image." ollama run deepseek-ocr "/path/to/image\nFree OCR." ollama run deepseek-ocr "/path/to/image run deepseek-ocr "/path/to/image\n<|grounding|>Convert the document to markdown." 2. 对于需要高精度 OCR、跨模态输入、多环境部署的用户来说,这次更新值得关注与升级。 我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。
上周同时接手两家客户的开发需求:头部券商要 “年报智能分析系统”,高校实验室需 “论文公式结构化工具”,本以为要适配两款 OCR 工具,试了 DeepSeek-OCR 后发现 —— 这3B参数的小模型竟能通吃两大领域 一、两大领域精准 “踩点”,DeepSeek-OCR 的核心优势藏在细节里这款以 “视觉压缩” 为核心的模型,并非简单提升识别精度,而是精准解决了金融与科研教育场景的痛点难题:1. 轻量化部署 + 多语言支持,适配场景更灵活两大领域的落地都绕不开 “部署成本”:券商的分支机构服务器多为 8G 内存配置,高校实验室需处理多语言外文文献。 DeepSeek-OCR 在单张 A100 GPU 上仅占 4.5GB 显存,8G 内存的边缘设备也能流畅运行,批量处理 500 页文档仅需 1 小时。 不用再为密钥管理耗费精力,不用为接口适配写冗余代码,让技术人员能聚焦在 “如何用 DeepSeek-OCR 提升识别精度”“如何优化数据分析逻辑” 这些核心问题上。
DeepSeek-OCR论文提出了一种创新的视角,将视觉模态视作一种高效的文本压缩介质。 这不仅是实验的需要,更是工程部署的考量。这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。 实用性能与生产力释放在OmniDocBench真实文档解析任务上,DeepSeek-OCR展现出超越现有先进模型的实用能力:Token效率领先: DeepSeek-OCR使用最少的Vision Tokens DeepSeek-OCR所提供的近乎无损的超高压缩比,正是解决这些问题的关键工程实践路径之一。 DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。
二、双雄并起:DeepSeek-OCR 的理论创新与 PaddleOCR-VL 的实用领先 在本轮 OCR 竞赛中,DeepSeek-OCR 与 PaddleOCR-VL 分别代表了两种不同的技术路径与价值主张 Deepseek-OCR识别不出任何内容。 繁体竖式排版文档 PaddleOCR-VL识别的非常清楚,繁体竖式排版文档分析的非常清楚,并且很完善。 Deepseek-OCR识别乱码了。 相比之下,DeepSeek-OCR 虽在某些任务上具备潜力,但在实际复杂场景中仍存在部分漏识别、结构误判、甚至“幻觉生成”等问题。 Trending 全球第一; 同步登顶 ModelScope Trending 全球第一; 跻身 GitHub Python 总榜第 3、全球总榜第 9; 提供在线 Demo 与完整开源代码,支持快速部署与二次开发 原文链接:https://huggingface.co/deepseek-ai/DeepSeek-OCR 五、OCR 进入“实用驱动”新时代 如果说 DeepSeek-OCR 代表了 OCR 在“大模型上下文压缩
DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 大家好,我是 Ai 学习的老章 大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deepseek-ocr 通过规模化的高质量应用导向数据,结合在线强化学习,模型表现出了非常稳健的端到端推理能力,有效规避了级联方案常见的相关误差累积问题 在文档解析、视觉问答和翻译方面达到 SOTA 1B 参数,端到端运行,大幅降低了部署成本 模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了 不过我看 HunyuanOCR@GitHub 的 README 中写需要 GPU 显存是 80GB,有点离谱啊 它会不会把显存和硬盘容量搞反了 ❓ 国内镜像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR https://huggingface.co/tencent/HunyuanOCR 官方建议 vLLM 部署模型以获取更好的推理性能和精度,因为 Transformers 相比 vLLM 框架存在一定的性能下滑 但是目前只能安装 vLLM nightly 了,稳定版的 vLLM 要支持
DeepSeek-OCR的“上下文光学压缩”技术巧妙地绕过了这一瓶颈。 然而,DeepSeek-OCR在实验中展现了卓越的性能平衡能力。 在高端装备领域,三一重工在泵车、挖掘机等设备中部署了DeepSeek的振动信号分析模型,能够提前72小时预警液压系统故障,使非计划停机时间减少了20%,每年服务成本下降8000万元。 DeepSeek-OCR的出现,无疑是通往这一宏伟目标的一个重要里程碑。 开发者可以自由地下载、修改和部署该模型,将其集成到自己的应用中,而无需支付高昂的API费用或投入巨大的研发资源。
添加图片注释,不超过 140 字(可选) 而Deepseek-ocr[5]本质上是"语言为中心"的设计。将文本转换为图像并通过视觉编码器处理,目的是为LLM记忆提供有损压缩方案。 所以从视觉->语言表征的设计,deepseek-ocr[6]确实提出了比较创新并且具备落地性的方案,在对文字表征上确实有不小作用。 deepseek-ocr确实是很有价值的通过图像压缩文本编码的方法,是图像对齐文本的一种有效编码方式,但不是文本图像模态对齐的通解。 https://arxiv.org/pdf/2509.23661 4.https://arxiv.org/pdf/2510.14349 5.https://github.com/deepseek-ai/DeepSeek-OCR
DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分 在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。 DeepSeek-OCR 不仅继承了传统OCR的文本识别能力,更在“文档理解”层面进行了全方位升级。 04、DeepSeek-OCR本地部署与环境搭建 可从Hugging Face或魔搭社区(ModelScope)获取。 DeepSeek-OCR实际应用效果