就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。 本文将带领大家部署在cloudstudio 利用免费时长的GPU资源部署一下带 web 端的项目,一睹为快。 解决什么问题? “一图胜千言”。 DeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com 要部署的现有 web 项目。
在Lab4AI平台,你只需3分钟即可私有部署,让系统从识字工具跃升为“文档理解专家”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 3分钟极速部署体验Lab4AI.cn上已上架了此篇论文的部署。 Lab4AI项目指路Step1启动项目登录Lab4AI,在“项目复现”中找到DeepSeek-OCR轻量化复现方案,选择GPU资源进行项目复现,平台将自动创建运行环境,无需手动安装依赖。 Step2模型部署参考官方文档完成模型部署,系统完成推理服务上线,跳转链接即可体验。Step3应用体验您可以可上传文档进行测试。本次实践支持从文字提取到表格解析再到图表与语义定位的全流程交互。
一、开源 OCR 的“甜蜜陷阱”我们第一时间接入 DeepSeek-OCR,却发现理想与现实之间隔着三座大山:1.部署即深渊虽然官方提供了 Transformers 和 vLLM 两种推理方式,但要在生产环境同时支持高分辨率扫描件 3.成本不可控更致命的是,DeepSeek-OCR 对长文档处理消耗巨大显存。一次 50 页财报解析,成本是 GPT-4o 的 3 倍。 的标准化多模态 API,我们把 DeepSeek-OCR、GPT-4o Vision、Claude 3.5 Sonnet 全部纳入同一个调度池。 现在,系统会自动判断:· 票据/合同 → 路由至 DeepSeek-OCR(中文结构化最优)· 多语言混合文档 → 调用 GPT-4o(语义连贯性更强)· 快速草图识别 → 切换至 Gemini Pro 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本
(GitHub[4]) 二、怎么部署官方模型? (GitHub[11]) 四、三款社区 WebUI 横评 下面我们对你给出的 3 个开源 WebUI 做一个“从部署门槛→功能点→适合谁”的系统对比。 (GitHub[17])•核心能力(4 大工作模式):•Plain OCR:纯文本提取;•Describe:智能图像描述;•Find:关键词查找并回传框选坐标;•Freeform:自定义 Prompt 一句话点评:工程化最好、部署最省心,上容器就能跑,还留足了二开的“地基”。 : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [4]GitHub - deepseek-ai/DeepSeek-OCR
的部署和使用的。 后端部署管理 deepseek-ocr.rs Rust 实现的 DeepSeek-OCR 推理栈,提供快速 CLI 与 OpenAI 兼容的 HTTP Server,统一打包多种 OCR 后端、视觉输入预处理 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。 deepseek-ocr-q4k deepseek-ocr Q4_K 显存非常紧张、本地离线批处理等场景,在牺牲一定精度的前提下压缩模型体积。 paddleocr-vl-q4k paddleocr-vl Q4_K 面向大规模、强压缩的文档/表格场景,对精度要求相对较低。
DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验 DeepSeek-OCR 官方项目 README: https://github.com 我看网上大家根据官方文档进行部署,问题多多。正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 的部署和 API 使用。 v0.11.2 拉取镜像 然后 docker save -o vllm012.tar vllm/vllm-openai:v0.11.2 把镜像保存到本地后传入内网服务器即可 至此 vLLM 升级完成 部署 DeepSeek-OCR 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了
在Tomcat服务器上,部署Web应用有多种方法: 静态部署,在启动Tomcat之前安装Web 应用 动态部署,使用Tomcat的Manager应用直接操纵已经部署好的Web应用(依赖于auto-deplyment 4. 在启动Tomcat时部署 将Web应用静态的部署到Tomcat中,再启动Tomcat,这种情况下应用部署的位置有appBase目录决定,每台主机都指定了一个这样的位置。 Tomcat启动时部署,步骤如下: 部署上下文描述文件 部署没有被任何上下文描述文件引用过的展开的Web应用。 7.使用客户端部署器进行部署 客户端部署器(TCD)的行为包括: 验证并编译web应用 将资源压缩成war文件 将web应用部署到用于生产或开发环境的Tomcat服务器上 TCD需要用到Ant,包含了一个 默认为myapp path:应用已部署的上下文路径,默认为/myapp url:tomcat中管理器应用的绝对地址,用于部署和结束部署应用。
部署 DeepSeek-OCR Client 目前主要针对 Windows 10/11操作系统进行了优化,并支持CUDA加速,这意味着拥有NVIDIA GPU 的用户将获得最佳性能。 其部署过程也力求简化: 系统环境: 需要 Node.js 18+ 和 Python 3.12+。 环境,部署和启动更为直接简单。 DeepSeek OCR App: 优势: 基于 Web 界面(React 前端+FastAPI 后端),支持 Docker 容器化部署,跨平台能力更强。 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。
整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 它现在接到的任务,根本不是去看那张复杂的A4纸。它接到的是一堆被PP-DocLayoutV2裁好的小图片。 的本地整合包,让大家能开箱即用,结果因为不同于一些常规的大模型,折腾了一夜,干到凌晨4点多,两眼发黑,还是没做出来,这个只能说对不起大家,还是有点太菜了= = 所以现阶段,大家如果有自己部署能力的,可以自己根据 PaddleOCR Github上的部署教程来部署到本地。 只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。
多个技术博客与评测也复现了“10× 压缩 ≈ 96–97% 精度”这一经验数字,并给出了从部署到跑通示例的实践记录。 (ernie.baidu.com[4]) 社区侧也快速补齐了教程与在线 Demo:Hugging Face 上线了模型与体验空间,GitHub/PaddleOCR 仓库亦提供了版本日志与一键试用入口。 (Tom's Hardware[10])4.部署要点:官方权重基于 PyTorch/CUDA;社区有在小型 GPU 上“抠细节跑通”的实践记录,可参考。 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。 utm_source=chatgpt.com [4]PaddleOCR-VL: Boosting Multilingual Document Parsing ...
就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 其在Fox benchmarkd 目前可用vllm和transfomer部署,然后就像正常的文档解析模型一样。 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR
大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 ,支持本地图片和 PDF 文件 ✅DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版✅DeepSeek-OCR 本地部署(下):vLLM 离线推理,API 重写 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 感兴趣的同学可以试试,OCR 模型 API 部分替换成官方/第三方的 API,代码稍作修改就可以在线部署运行了。 #! ": "http://localhost:8002/models/v1//deepseek-ocr/inference", "PaddleOCR": "http://localhost:8003
DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 the image." ollama run deepseek-ocr "/path/to/image\nFree OCR." ollama run deepseek-ocr "/path/to/image run deepseek-ocr "/path/to/image\n<|grounding|>Convert the document to markdown." 2. DeepSeek-OCR 支持 2. DeepSeek-V3.1 架构支持于 Ollama 引擎 3. 修复 Ollama 0.12.11 在 CUDA 上的性能问题 4. 对于需要高精度 OCR、跨模态输入、多环境部署的用户来说,这次更新值得关注与升级。 我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。
处理 286 页上市公司年报,4 分 12 秒就还原出 95.7% 准确率的表格数据,关键指标误差低于 0.3%;解析 62 页带 45 个公式的 Nature 论文,生成的 LaTeX 格式直接复制可用 实测时上传某新能源企业年报,输入 “提取营收构成、毛利率、研发投入,生成联动表格”,系统 4 分 12 秒就输出完整结果,连 “附注中的子公司营收占比” 都精准关联,表格断档率从 18.2% 降至 0.5% 轻量化部署 + 多语言支持,适配场景更灵活两大领域的落地都绕不开 “部署成本”:券商的分支机构服务器多为 8G 内存配置,高校实验室需处理多语言外文文献。 DeepSeek-OCR 在单张 A100 GPU 上仅占 4.5GB 显存,8G 内存的边缘设备也能流畅运行,批量处理 500 页文档仅需 1 小时。 不用再为密钥管理耗费精力,不用为接口适配写冗余代码,让技术人员能聚焦在 “如何用 DeepSeek-OCR 提升识别精度”“如何优化数据分析逻辑” 这些核心问题上。
: DISTRO="xenial" # KMS for Ubuntu 16.04 (Xenial) DISTRO="bionic" # KMS for Ubuntu 18.04 (Bionic) 4、 执行时,terminal终端中,按顺序把上面4行,都复制进去就行(注:1个字符都不要少) 6、安装kurento media server apt-get update \ && apt-get install 另外,如果不想麻烦,只是想快速搭建一个kurento环境,也可以直接用docker部署。
Redis5版本前(redis3.x及redis4.x)cluster部署较麻烦,因部署过程中涉及的依赖软件版本要求较苛刻,因此记录一下redis4.0.14版本redis cluster的部署过程。 1 Redis各节点部署 使用源码安装各节点,不过与非cluster方式不同的是,配置文件中需启动cluster相关的配置。 编译过程可参考分分钟搞定Redis编译安装 因本次为伪分布式部署,生产环境部署时建议至少3台机器部署(其中每台机器1主1从) ip port 192.168.56.101 7000 192.168.56.101 S: 905dc9de7e074c282aab44b4ed5680a2020bcf4c 192.168.56.101:7005 replicates 43fa53cec1ae164f784e5d439aaf80ee2f7e35af 192.168.56.101:7001 slots:5461-10922 (5462 slots) master 1 additional replica(s) S: 905dc9de7e074c282aab44b4ed5680a2020bcf4c
“DeepSeek-OCR:Contexts Optical Compression。探索视觉-文本压缩的边界。” 开源可部署开源代码 + 模型权重,MIT 许可证。可自建、自控、安全可审。 开源部署能力模型权重、代码、文档公开,自建部署支持安全与定制。 与同类项目对比及产品优势项目识别结构化能力长文档/批量处理输出格式开源&可部署优势总结DeepSeek-OCR强(支持标题、表格、图注)很强(文档压缩+批量)Markdown/文本✅最佳结构化输出+可部署 开源自部署:适合企业、机构构建私有化流程,降低 SaaS 风险。输出格式友好:Markdown 输出方便编辑、检索、二次加工。
这节的内容为在正式部署MHA前需要做哪些准备 1. hosts文件 首先我们在四台服务器上添加其他服务器的hosts信息 11.12.14.29 shytest 11.12.14.30 shytest2 11.12.14.39 shytest3 11.12.14.40 shytest4 2. ssh-copy-id 11.12.14.39 ssh-copy-id 11.12.14.40 ssh-copy-id shytest2 ssh-copy-id shytest3 ssh-copy-id shytest4 ssh-copy-id 11.12.14.39 ssh-copy-id 11.12.14.40 ssh-copy-id shytest ssh-copy-id shytest3 ssh-copy-id shytest4 采用基于GTID的复制方式,否则建议关闭GTID功能 这里就不多做介绍了,具体见上一个专题 注意在做主从同步的时候建议清理下从库相关信息 reset master ; reset slave all; 4.
DeepSeek-OCR论文提出了一种创新的视角,将视觉模态视作一种高效的文本压缩介质。 这不仅是实验的需要,更是工程部署的考量。这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。 实用性能与生产力释放在OmniDocBench真实文档解析任务上,DeepSeek-OCR展现出超越现有先进模型的实用能力:Token效率领先: DeepSeek-OCR使用最少的Vision Tokens 文档类型分析进一步证实了压缩边界的实际意义:对于文本密度较低的文档(如Slides),64个Tokens即可满足要求;而对于文本量大、排版复杂的报纸,则需要Gundam模式(Tokens数量可达4-5倍 DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。
合适的资源过滤 4、合适的插件配置(exec插件,surefire,Git commitID,shade) 5、针对 application.properties和application.yml 的资源过滤 启动: 我们直接启动:java -jar demo-0.0.1-SNAPSHOT.jar 4、部署到javaEE容器 修改启动类,继承 SpringBootServletInitializer 5、热部署 在我们开发过程中,我们需要经常修改,为了避免重复启动项目,我们可以启用热部署。 Spring-Loaded项目提供了强大的热部署功能,添加/删除/修改 方法/字段/接口/枚举 等代码的时候都可以热部署,速度很快,很方便。 注意:使用热部署的时候,需要IDE编译类后才能生效,你可以打开自动编译功能,这样在你保存修改的时候,类就自动重新加载了。