就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。 本文将带领大家部署在cloudstudio 利用免费时长的GPU资源部署一下带 web 端的项目,一睹为快。 解决什么问题? “一图胜千言”。 DeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com 要部署的现有 web 项目。
在Lab4AI平台,你只需3分钟即可私有部署,让系统从识字工具跃升为“文档理解专家”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 相比于传统OCR处理一张图需上千个视觉token,DeepSeek-OCR只需几十个,压缩比高达10-20倍。它能够在10倍压缩时仍保持96%识别精度,几乎不损失信息。 3分钟极速部署体验Lab4AI.cn上已上架了此篇论文的部署。 Step2模型部署参考官方文档完成模型部署,系统完成推理服务上线,跳转链接即可体验。Step3应用体验您可以可上传文档进行测试。本次实践支持从文字提取到表格解析再到图表与语义定位的全流程交互。
官方仓库 2025-10-20 首次公开,10-23 宣布被 vLLM 上游原生支持,这也是后来社区 WebUI 迅速冒头的关键原因。 (GitHub[4]) 二、怎么部署官方模型? (GitHub[10]) 三、DeepSeek-OCR 的实用提示词 官方给了不少例子,下面列出最“带货”的几条,拿来就能用: •文档转 Markdown:<image>\n<|grounding|>Convert README 明确“首启会下载 ~5–10GB 模型”,并提供 .env 配置范式。 : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [10]GitHub - deepseek-ai/DeepSeek-OCR
部署 DeepSeek-OCR Client 目前主要针对 Windows 10/11操作系统进行了优化,并支持CUDA加速,这意味着拥有NVIDIA GPU 的用户将获得最佳性能。 其部署过程也力求简化: 系统环境: 需要 Node.js 18+ 和 Python 3.12+。 环境,部署和启动更为直接简单。 DeepSeek OCR App: 优势: 基于 Web 界面(React 前端+FastAPI 后端),支持 Docker 容器化部署,跨平台能力更强。 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。
多个技术博客与评测也复现了“10× 压缩 ≈ 96–97% 精度”这一经验数字,并给出了从部署到跑通示例的实践记录。 (Hugging Face[5]) 适用场景:生产级文档数字化/结构化、RAG 前置解析、跨语言票据/合同/学术 PDF、公式与表格抽取;核心价值:轻量、快、准、易部署。 (Tom's Hardware[10])4.部署要点:官方权重基于 PyTorch/CUDA;社区有在小型 GPU 上“抠细节跑通”的实践记录,可参考。 (Hugging Face[12])2.资源与延迟:0.9B 规模+ 动态分辨率让它在边缘/轻量场景也能跑,满足工程部署与吞吐的实际诉求。 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。
DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验 DeepSeek-OCR 官方项目 README: https://github.com 我看网上大家根据官方文档进行部署,问题多多。正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 的部署和 API 使用。 v0.11.2 拉取镜像 然后 docker save -o vllm012.tar vllm/vllm-openai:v0.11.2 把镜像保存到本地后传入内网服务器即可 至此 vLLM 升级完成 部署 DeepSeek-OCR 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了
的部署和使用的。 因为,我找到了更好的后端部署管理的方式。 后端部署管理 deepseek-ocr.rs Rust 实现的 DeepSeek-OCR 推理栈,提供快速 CLI 与 OpenAI 兼容的 HTTP Server,统一打包多种 OCR 后端、视觉输入预处理 选 PaddleOCR‑VL,SigLIP + dense Ernie(18 层、hidden 1024)在 10GB 以内即可运行,CPU 模式也更易部署。 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。
免费订阅,与10万+技术人共享升级秘籍! “DeepSeek-OCR:Contexts Optical Compression。探索视觉-文本压缩的边界。” 开源可部署开源代码 + 模型权重,MIT 许可证。可自建、自控、安全可审。 高压缩比在压缩比 < 10× 情况下,识别精度可达 ≈ 97%。批量优化支持大规模页面并行处理,适合训练数据构建、文档仓库等场景。开源部署能力模型权重、代码、文档公开,自建部署支持安全与定制。 与同类项目对比及产品优势项目识别结构化能力长文档/批量处理输出格式开源&可部署优势总结DeepSeek-OCR强(支持标题、表格、图注)很强(文档压缩+批量)Markdown/文本✅最佳结构化输出+可部署 开源自部署:适合企业、机构构建私有化流程,降低 SaaS 风险。输出格式友好:Markdown 输出方便编辑、检索、二次加工。
突然开源了 DeepSeek-OCR——一个能将任意 PDF 或图像一键转为结构化 Markdown 的视觉语言模型。 一、开源 OCR 的“甜蜜陷阱”我们第一时间接入 DeepSeek-OCR,却发现理想与现实之间隔着三座大山:1.部署即深渊虽然官方提供了 Transformers 和 vLLM 两种推理方式,但要在生产环境同时支持高分辨率扫描件 Vision(低延迟优先)部署复杂度下降 80%,工程师终于不用再写“模型适配器”了。 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本 如果你也拥有一个惊艳的开源模型,却困于部署、调度与成本的泥潭——是时候让它接入真正的 AI 中枢了。
DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 the image." ollama run deepseek-ocr "/path/to/image\nFree OCR." ollama run deepseek-ocr "/path/to/image run deepseek-ocr "/path/to/image\n<|grounding|>Convert the document to markdown." 2. /bench -model llama3 -epochs 10 -temperature 0.7 -max-tokens 500 -seed 42 -format csv -output results.csv 对于需要高精度 OCR、跨模态输入、多环境部署的用户来说,这次更新值得关注与升级。 我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。
一、两大领域精准 “踩点”,DeepSeek-OCR 的核心优势藏在细节里这款以 “视觉压缩” 为核心的模型,并非简单提升识别精度,而是精准解决了金融与科研教育场景的痛点难题:1. token 的 1/10。 轻量化部署 + 多语言支持,适配场景更灵活两大领域的落地都绕不开 “部署成本”:券商的分支机构服务器多为 8G 内存配置,高校实验室需处理多语言外文文献。 DeepSeek-OCR 在单张 A100 GPU 上仅占 4.5GB 显存,8G 内存的边缘设备也能流畅运行,批量处理 500 页文档仅需 1 小时。 不用再为密钥管理耗费精力,不用为接口适配写冗余代码,让技术人员能聚焦在 “如何用 DeepSeek-OCR 提升识别精度”“如何优化数据分析逻辑” 这些核心问题上。
就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 其在Fox benchmarkd 目前可用vllm和transfomer部署,然后就像正常的文档解析模型一样。 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 ,支持本地图片和 PDF 文件 ✅DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版✅DeepSeek-OCR 本地部署(下):vLLM 离线推理,API 重写 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 感兴趣的同学可以试试,OCR 模型 API 部分替换成官方/第三方的 API,代码稍作修改就可以在线部署运行了。 #! ": "http://localhost:8002/models/v1//deepseek-ocr/inference", "PaddleOCR": "http://localhost:8003
这不仅是实验的需要,更是工程部署的考量。这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。 实验数据明确了压缩比与解码精度的关系:近乎无损压缩: 在10倍压缩比(例如700-800文本Tokens对100个Vision Tokens)下,模型解码精度达到约97%。 这些发现为VLM的Tokens分配优化提供了经验依据,并暗示了未来通过文本到图像方法实现近10倍无损上下文压缩的可能性。2. DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。 泛化能力: 通过引入少量通用视觉数据(20%)和纯文本数据(10%),模型保留了基础的图像理解和语言能力,使其具备通用VLM接口的潜力。2.
10 月以来,DeepSeek、百度、上海 AI Lab 相继发布并开源新一代 OCR 模型,掀起全球多模态文档理解的技术热潮。 尤其引人注目的是,10 月 21 日,HuggingFace 全球模型趋势热榜前三名全部被OCR模型包揽,展现出这一传统技术在大模型时代焕发的新生命力。 其中,百度飞桨团队于 10 月 16 日开源的 PaddleOCR-VL 模型持续登顶 Trending 榜首至今,以及随后发布DeepSeek发布的DeepSeek-OCR ,成为当前最受全球开发者关注的模型 DeepSeek-OCR:以 OCR 解决大模型“上下文压缩”问题 DeepSeek 在 10 月 20 日开源其 OCR 模型,创新性地提出 “上下文光学压缩” 理念,尝试通过视觉模态解决大语言模型处理长文本时的计算资源爆炸问题 Trending 全球第一; 同步登顶 ModelScope Trending 全球第一; 跻身 GitHub Python 总榜第 3、全球总榜第 9; 提供在线 Demo 与完整开源代码,支持快速部署与二次开发
因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL 而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样 PaddleOCR Github上的部署教程来部署到本地。 只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。
然而,2025年10月,中国AI企业深度求索(DeepSeek)发布的一款名为DeepSeek-OCR的开源模型,为这一难题带来了革命性的解决方案。 1.1.3 在10倍压缩率下实现97%的解码精度 任何压缩技术都面临着效率与精度的权衡,DeepSeek-OCR也不例外。 通过将Token数量压缩10到20倍,DeepSeek-OCR能够显著降低显存占用、减少计算量,从而直接降低服务器端的运营成本 。 在高端装备领域,三一重工在泵车、挖掘机等设备中部署了DeepSeek的振动信号分析模型,能够提前72小时预警液压系统故障,使非计划停机时间减少了20%,每年服务成本下降8000万元。 开发者可以自由地下载、修改和部署该模型,将其集成到自己的应用中,而无需支付高昂的API费用或投入巨大的研发资源。
配置和安装 dashboard 官方文件目录:kubernetes/cluster/addons/dashboard 我们需要使用的yaml文件 $ ls *.yaml dashboard-controller.yaml dashboard-service.yaml dashboard-rbac.yaml 已经修改好的 yaml 文件见:dashboard 由于 kube-apiserver 启用了 RBAC 授权,而官方源码目录的 dashboard-controller.yaml 没有定义授权的 Se
我们的定量分析为VLM标记分配优化提供了经验性指导,而提出的DeepEncoder架构则展示了实际可行性及现实部署能力。 虽然这种方法提供了可控的参数和激活内存,但其存在显著缺点:它需要双图像预处理,这使部署复杂化,并在训练时使得编码器流水线并行极具挑战性。 纯文本数据为了确保模型的语言能力,我们引入了10%的内部纯文本预训练数据,所有数据处理成长度为8192个标记,这也是DeepSeek-OCR的序列长度。 初步结果令人鼓舞:DeepSeek-OCR在大约10倍压缩比下实现了近乎无损的OCR压缩,而在20倍压缩下仍能保持60%的准确率。 结论在本技术报告中,我们提出了DeepSeek-OCR,并通过该模型初步验证了上下文光学压缩的可行性,证明模型能够从少量视觉标记有效解码超出其数量10倍以上的文本标记。
最近,DeepSeek-AI团队发布了一款名为DeepSeek-OCR的新模型。 DeepSeek-OCR是如何工作的?DeepSeek-OCR的架构可以理解为两部分:一个专业的“眼睛”(DeepEncoder编码器)和一个聪明的“大脑”(DeepSeek3B-MoE解码器)。 惊人的压缩效率实验数据显示,当文本token数量控制在视觉token的10倍以内时,DeepSeek-OCR的识别精度高达97%,近乎无损压缩;即使压缩比提升至20倍,模型准确率仍能维持在60% 左右。 这意味着在未来,我们有望通过文本到图像的方法实现接近10倍的无损上下文压缩,为处理海量文档信息开辟了全新可能。 online free try - https://karavideo.ai/free-tools/deepseek-ocr 卓越的实际性能在专业的OmniDocBench基准测试中:DeepSeek-OCR