就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。 本文将带领大家部署在cloudstudio 利用免费时长的GPU资源部署一下带 web 端的项目,一睹为快。 解决什么问题? “一图胜千言”。 DeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com 要部署的现有 web 项目。
那么这一次新的DeepSeek-OCR-2模型解决的是什么问题呢?我们先来快速回顾一下DeepSeek-OCR是什么,然后你就知道为什么会有OCR-2模型的出现了。 之前的DeepSeek-OCR一句话可以概括出来:就是将长文档的文字信息“渲染成图片”或“压缩为视觉token”,然后再通过视觉-语言模型进行解码识别,从而在处理长文本或大规模文档识别上提高效率。 模型架构DeepSeek-OCR2延续DeepSeek-OCR的整体范式,但彻底升级了Encoder。 2.模型效果更强从实验结果来看,DeepSeek-OCR2在不牺牲视觉压缩效率的前提下,实现了明显的性能跃升。 这种创新不算很大,但是真的很实用写在最后从DeepSeek-OCR到DeepSeek-OCR2,本质上并不是一次“推倒重来”的大改版,更像是一次极具针对性的结构校准。
在Lab4AI平台,你只需3分钟即可私有部署,让系统从识字工具跃升为“文档理解专家”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 “压”成少量高价值视觉token,兼顾细节与全局:局部阶段(SAM-base):精准捕捉字符、线条等细节特征,不遗漏关键信息;压缩阶段(16×卷积):在双组件之间,通过2层卷积模块对视觉token进行16 3分钟极速部署体验Lab4AI.cn上已上架了此篇论文的部署。 Step2模型部署参考官方文档完成模型部署,系统完成推理服务上线,跳转链接即可体验。Step3应用体验您可以可上传文档进行测试。本次实践支持从文字提取到表格解析再到图表与语义定位的全流程交互。
我看网上大家根据官方文档进行部署,问题多多。正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 的部署和 API 使用。 docker.service docker.socket 完成升级后记得要 enable 一下 sudo systemctl enable docker.service docker.socket 问题 2: v0.11.2 拉取镜像 然后 docker save -o vllm012.tar vllm/vllm-openai:v0.11.2 把镜像保存到本地后传入内网服务器即可 至此 vLLM 升级完成 部署 DeepSeek-OCR 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了
(GitHub[2]) 另外,DeepSeek-OCR 在 vLLM 推理路径下提供了现成脚本:图片流式输出、PDF 高并发(A100-40G 约 2500 tokens/s)、评测批处理,也示例了如何用 (GitHub[4]) 二、怎么部署官方模型? (GitHub[11]) 四、三款社区 WebUI 横评 下面我们对你给出的 3 个开源 WebUI 做一个“从部署门槛→功能点→适合谁”的系统对比。 一句话点评:工程化最好、部署最省心,上容器就能跑,还留足了二开的“地基”。 : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [2]GitHub - deepseek-ai/DeepSeek-OCR
一、开源 OCR 的“甜蜜陷阱”我们第一时间接入 DeepSeek-OCR,却发现理想与现实之间隔着三座大山:1.部署即深渊虽然官方提供了 Transformers 和 vLLM 两种推理方式,但要在生产环境同时支持高分辨率扫描件 2.性能黑箱用户抱怨“表格识别错位”,但问题是出在 DeepSeek-OCR 本身?还是我们的图像缩放策略?抑或是 PDF 渲染引擎的 DPI 设置? Vision(低延迟优先)部署复杂度下降 80%,工程师终于不用再写“模型适配器”了。 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本 如果你也拥有一个惊艳的开源模型,却困于部署、调度与成本的泥潭——是时候让它接入真正的 AI 中枢了。
的部署和使用的。 因为,我找到了更好的后端部署管理的方式。 后端部署管理 deepseek-ocr.rs Rust 实现的 DeepSeek-OCR 推理栈,提供快速 CLI 与 OpenAI 兼容的 HTTP Server,统一打包多种 OCR 后端、视觉输入预处理 SAM+CLIP 视觉 + DeepSeek‑V2 MoE(3B 参数,单 token 激活 ≈570M)。 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。
部署 DeepSeek-OCR Client 目前主要针对 Windows 10/11操作系统进行了优化,并支持CUDA加速,这意味着拥有NVIDIA GPU 的用户将获得最佳性能。 其部署过程也力求简化: 系统环境: 需要 Node.js 18+ 和 Python 3.12+。 环境,部署和启动更为直接简单。 DeepSeek OCR App: 优势: 基于 Web 界面(React 前端+FastAPI 后端),支持 Docker 容器化部署,跨平台能力更强。 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。
多个技术博客与评测也复现了“10× 压缩 ≈ 96–97% 精度”这一经验数字,并给出了从部署到跑通示例的实践记录。 (clarifai.com[8])2.压缩强度:建议在<10×的区间运行,以换取≈97%的还原精度;追求 20× 虽更省,但容错空间要评估。 (Tom's Hardware[10])4.部署要点:官方权重基于 PyTorch/CUDA;社区有在小型 GPU 上“抠细节跑通”的实践记录,可参考。 (Hugging Face[12])2.资源与延迟:0.9B 规模+ 动态分辨率让它在边缘/轻量场景也能跑,满足工程部署与吞吐的实际诉求。 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。
它接到的是一堆被PP-DocLayoutV2裁好的小图片。 我详细核对了2、3遍,发现确实一个字都没错。 最后的那个+号后面之所以没东西了,是因为我截图的时候,不小心让搜狗输入法的图标给挡住了。。。 而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样 PaddleOCR Github上的部署教程来部署到本地。 只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。
就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 其在Fox benchmarkd 目前可用vllm和transfomer部署,然后就像正常的文档解析模型一样。 比如输入以下将文件转换为markdown格式输出: prompt = "<image>\n<|grounding|>Convert the document to markdown. " 以下是一些案例: 案例2解析图标 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 ,支持本地图片和 PDF 文件 ✅DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版✅DeepSeek-OCR 本地部署(下):vLLM 离线推理,API 重写 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 感兴趣的同学可以试试,OCR 模型 API 部分替换成官方/第三方的 API,代码稍作修改就可以在线部署运行了。 #! ": "http://localhost:8002/models/v1//deepseek-ocr/inference", "PaddleOCR": "http://localhost:8003
开源可部署开源代码 + 模型权重,MIT 许可证。可自建、自控、安全可审。 AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2' 开源部署能力模型权重、代码、文档公开,自建部署支持安全与定制。 界面 2:批量处理界面,显示待处理文件、进度条、已完成项。界面 3:输出 Markdown 预览,标题、正文、表格、图表均有保留。 与同类项目对比及产品优势项目识别结构化能力长文档/批量处理输出格式开源&可部署优势总结DeepSeek-OCR强(支持标题、表格、图注)很强(文档压缩+批量)Markdown/文本✅最佳结构化输出+可部署
DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 the image." ollama run deepseek-ocr "/path/to/image\nFree OCR." ollama run deepseek-ocr "/path/to/image run deepseek-ocr "/path/to/image\n<|grounding|>Convert the document to markdown." 2. DeepSeek-OCR 支持 2. DeepSeek-V3.1 架构支持于 Ollama 引擎 3. 修复 Ollama 0.12.11 在 CUDA 上的性能问题 4. 对于需要高精度 OCR、跨模态输入、多环境部署的用户来说,这次更新值得关注与升级。 我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。
输出可建模的结构化数据”,这正是传统 OCR 的软肋 —— 此前用 MinerU2.0 处理 200 页年报,需切成 6 段分批解析,表格里的 “营收与成本关联数据” 因分段丢失 30% 逻辑关系,光人工校对就要 2 2. 轻量化部署 + 多语言支持,适配场景更灵活两大领域的落地都绕不开 “部署成本”:券商的分支机构服务器多为 8G 内存配置,高校实验室需处理多语言外文文献。 上周券商系统内测时,手滑把 Gemini 的密钥填给了 Tableau,导致看板模块直接崩了,报错日志刷了 300 多行才定位到问题;高校工具联调时,因 GPT-5 密钥过期未及时更新,公式计算功能停摆 2 更实用的是,Gateone 能自动提醒密钥有效期,还能按工具设置调用权限,彻底杜绝了密钥混用和泄露风险,联调时间从 1 天缩至 2 小时。
2. MoE解码器:兼顾表达与推理效率DeepSeek-OCR的解码器采用DeepSeek-3B-MoE架构。 这不仅是实验的需要,更是工程部署的考量。这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。 2. DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。 2. 深度解析的市场价值与应用拓展“深度解析”(Deep Parsing)是DeepSeek-OCR在高价值应用中的体现。
DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 大家好,我是 Ai 学习的老章 大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deepseek-ocr -3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B...... 格式表示,其中页眉、页脚部分忽略,表格用 html 格式表达,文档中公式用 latex 格式表示,按照阅读顺序组织进行解析 信息抽取 • 输出 Key 的值• 提取图片中的:['key1','key2' 模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了 不过我看 HunyuanOCR@GitHub 的 README 中写需要 GPU 显存是 80GB,有点离谱啊 它会不会把显存和硬盘容量搞反了 ❓ 国内镜像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR https://huggingface.co/tencent/HunyuanOCR
2. 产业自动化的“效率引擎” 金融、政务、物流等行业依赖高精度、低成本的文档自动化处理。OCR 作为“信息提取层”,成为流程数字化中不可或缺的一环。 3. 二、双雄并起:DeepSeek-OCR 的理论创新与 PaddleOCR-VL 的实用领先 在本轮 OCR 竞赛中,DeepSeek-OCR 与 PaddleOCR-VL 分别代表了两种不同的技术路径与价值主张 Deepseek-OCR识别不出任何内容。 繁体竖式排版文档 PaddleOCR-VL识别的非常清楚,繁体竖式排版文档分析的非常清楚,并且很完善。 Deepseek-OCR识别乱码了。 Trending 全球第一; 同步登顶 ModelScope Trending 全球第一; 跻身 GitHub Python 总榜第 3、全球总榜第 9; 提供在线 Demo 与完整开源代码,支持快速部署与二次开发 原文链接:https://huggingface.co/deepseek-ai/DeepSeek-OCR 五、OCR 进入“实用驱动”新时代 如果说 DeepSeek-OCR 代表了 OCR 在“大模型上下文压缩
官网:https://caddyserver.com/docs/ 中文教程网站:https://caddy2.dengxiaolong.com/docs/ Github地址:https://github.com /caddyserver/caddy 这里以v2.6.2版本做演示 本站以切换到Caddy 2.6.2版本反代 Docker部署 docker run -d --restart=always --privileged 证书配置示例 https://域名 { import GZIP import LOG "域名" tls 邮箱 reverse_proxy 10.0.0.13:9000 } Rancher2部署 部署、使用都很简单,欢迎使用
DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分 在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。 04、DeepSeek-OCR本地部署与环境搭建 可从Hugging Face或魔搭社区(ModelScope)获取。 /deepseek-ocr modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir . DeepSeek-OCR实际应用效果