首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Lcry个人博客

    利用 cloudstudio 免费 GPU 时长部署 DeepSeek-OCR

    就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCR。 本文将带领大家部署在cloudstudio 利用免费时长的GPU资源部署一下带 web 端的项目,一睹为快。 解决什么问题? “一图胜千言”。 DeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com 要部署的现有 web 项目。

    34510编辑于 2026-01-09
  • 复杂部署退退退!DeepSeek-OCR 轻量化文档理解,3分钟私有部署搞定

    3分钟,让AI真正“读懂”文档。我们日常接触的PDF、扫描件里,不只有单纯的文字,还有多栏排版、复杂表格、科研公式、数据图表等多模态内容。 它以更轻、更快、更懂的姿态登场——仅用3B参数,即可实现对文字、表格、图表等多模态内容的深度解析。在Lab4AI平台,你只需3分钟即可私有部署,让系统从识字工具跃升为“文档理解专家”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 3分钟极速部署体验Lab4AI.cn上已上架了此篇论文的部署。 Step2模型部署参考官方文档完成模型部署,系统完成推理服务上线,跳转链接即可体验。Step3应用体验您可以可上传文档进行测试。本次实践支持从文字提取到表格解析再到图表与语义定位的全流程交互。

    59300编辑于 2025-12-03
  • 再聊一聊deepseek-ocr的应用

    (GitHub[3]) 小结:DeepSeek-OCR 把“视觉→语言”做了非常干净的接口,既能跑 Transformers,又被 vLLM 原生接住,因此用它做产品化 WebUI 的门槛很低,生态也就很快繁荣起来 (GitHub[4]) 二、怎么部署官方模型? (GitHub[9]) 3)Transformers 推理路径 如果你更偏爱 HF 生态,也能用 AutoTokenizer/AutoModel 加载 deepseek-ai/DeepSeek-OCR, (GitHub[11]) 四、三款社区 WebUI 横评 下面我们对你给出的 3 个开源 WebUI 做一个“从部署门槛→功能点→适合谁”的系统对比。 : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [3]GitHub - deepseek-ai/DeepSeek-OCR

    29010编辑于 2026-03-13
  • 来自专栏机器学习与统计学

    【教程】DeepSeek-OCR本地部署(上):CUDA 升级12.9,vLLM升级至最新稳定版

    DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验 DeepSeek-OCR 官方项目 README: https://github.com 我看网上大家根据官方文档进行部署,问题多多。正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 的部署和 API 使用。 v0.11.2 拉取镜像 然后 docker save -o vllm012.tar vllm/vllm-openai:v0.11.2 把镜像保存到本地后传入内网服务器即可 至此 vLLM 升级完成 部署 DeepSeek-OCR 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了

    2K10编辑于 2025-11-29
  • 当开源 OCR 革命撞上多模态成本困局:我们如何用 Gateone.ai 把 DeepSeek-OCR 变成“印钞机”

    一、开源 OCR 的“甜蜜陷阱”我们第一时间接入 DeepSeek-OCR,却发现理想与现实之间隔着三座大山:1.部署即深渊虽然官方提供了 Transformers 和 vLLM 两种推理方式,但要在生产环境同时支持高分辨率扫描件 3.成本不可控更致命的是,DeepSeek-OCR 对长文档处理消耗巨大显存。一次 50 页财报解析,成本是 GPT-4o 的 3 倍。 Vision(低延迟优先)部署复杂度下降 80%,工程师终于不用再写“模型适配器”了。 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本 如果你也拥有一个惊艳的开源模型,却困于部署、调度与成本的泥潭——是时候让它接入真正的 AI 中枢了。

    31410编辑于 2025-10-24
  • deepseek-ocr及其他ocr模型衍生应用的思考

    部署和使用的。 因为,我找到了更好的后端部署管理的方式。 后端部署管理 deepseek-ocr.rs Rust 实现的 DeepSeek-OCR 推理栈,提供快速 CLI 与 OpenAI 兼容的 HTTP Server,统一打包多种 OCR 后端、视觉输入预处理 SAM+CLIP 视觉 + DeepSeek‑V2 MoE(3B 参数,单 token 激活 ≈570M)。 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。

    28110编辑于 2026-03-13
  • 来自专栏机器学习与统计学

    DeepSeek-OCR桌面客户端,Windows用户优先体验

    部署 DeepSeek-OCR Client 目前主要针对 Windows 10/11操作系统进行了优化,并支持CUDA加速,这意味着拥有NVIDIA GPU 的用户将获得最佳性能。 其部署过程也力求简化: 系统环境: 需要 Node.js 18+ 和 Python 3.12+。 环境,部署和启动更为直接简单。 DeepSeek OCR App: 优势: 基于 Web 界面(React 前端+FastAPI 后端),支持 Docker 容器化部署,跨平台能力更强。 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。

    92310编辑于 2025-11-20
  • 来自专栏机器学习与统计学

    撸了一个 OCR 大模型对比工具:DeepSeekOCR、PaddleOCR 和 混元OCR

    大家好,我是 Ai 学习的老章 最近的 OCR 大模型我都做了本地部署和测试,还写了一个 API 统一对接这三个模型 ✅腾讯混元 OCR 大模型,本地部署,实测 ✅本地部署 PaddleOCR,消费级显卡轻松跑 ,支持本地图片和 PDF 文件 ✅DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版✅DeepSeek-OCR 本地部署(下):vLLM 离线推理,API 重写 也可以切换到识别后的原始 Markdown,支持一键 copy 核心代码如下(完整代码接近 600 行,大多是 HTML 相关): 我这里主要是模型本地部署,内网运行的,没再折腾线上部署。 /usr/bin/env python3 """ OCR Comparison Web App - 美化版,不依赖外部 CDN """ import os import re import shutil bytes") # 并行调用三个 API results = {} with ThreadPoolExecutor(max_workers=3)

    1.2K10编辑于 2025-12-21
  • 来自专栏sktj

    Kubernetes(3:部署)

    1 3个节点: k8s-master k8s-node1 k8s-node2 2 yum install -y docker 3 所有节点安装kubelet kubeadm kubectl

    72230发布于 2019-09-24
  • DeepSeek-OCR vs PaddleOCR-VL

    多个技术博客与评测也复现了“10× 压缩 ≈ 96–97% 精度”这一经验数字,并给出了从部署到跑通示例的实践记录。 (Tom's Hardware[10])4.部署要点:官方权重基于 PyTorch/CUDA;社区有在小型 GPU 上“抠细节跑通”的实践记录,可参考。 (Hugging Face[12])2.资源与延迟:0.9B 规模+ 动态分辨率让它在边缘/轻量场景也能跑,满足工程部署与吞吐的实际诉求。 (Hugging Face[18])3.选择标准:•降本长上下文 → DeepSeek-OCR;•高质量结构化解析 → PaddleOCR-VL;•复杂系统 → 两者联动,解析与压缩各司其职。 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。

    22410编辑于 2026-03-13
  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 我详细核对了2、3遍,发现确实一个字都没错。 最后的那个+号后面之所以没东西了,是因为我截图的时候,不小心让搜狗输入法的图标给挡住了。。。 而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样 PaddleOCR Github上的部署教程来部署到本地。 只是想用一下的,不想折腾部署的,可以去各大demo平台上用官方自己部署的体验版本。

    98020编辑于 2025-11-18
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 其在Fox benchmarkd 目前可用vllm和transfomer部署,然后就像正常的文档解析模型一样。 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    38210编辑于 2025-11-29
  • 来自专栏福大大架构师每日一题

    ollama v0.13.0 发布:DeepSeek-OCR、Cogito-V2.1 全新支持,性能工具 Bench 正式上线

    DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 /bench -model gemma3 -epochs 6 • 多模型测试: . /bench -model gemma3,gemma3n -epochs 6 -max-tokens 100 -p "Write me a short story" | tee gemma.bench DeepSeek-OCR 支持 2. DeepSeek-V3.1 架构支持于 Ollama 引擎 3. 修复 Ollama 0.12.11 在 CUDA 上的性能问题 4. 对于需要高精度 OCR、跨模态输入、多环境部署的用户来说,这次更新值得关注与升级。 我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。

    63910编辑于 2025-12-19
  • 牛逼,DeepSeek-OCR 最新免费,引爆文档处理效率的黑科技模型

    开源可部署开源代码 + 模型权重,MIT 许可证。可自建、自控、安全可审。 开源部署能力模型权重、代码、文档公开,自建部署支持安全与定制。 界面 3:输出 Markdown 预览,标题、正文、表格、图表均有保留。这些截图直观地展现了从「原始扫描件 → 结构化文本」的完整流程,降低使用门槛,让非技术用户也能快速上手。 与同类项目对比及产品优势项目识别结构化能力长文档/批量处理输出格式开源&可部署优势总结DeepSeek-OCR强(支持标题、表格、图注)很强(文档压缩+批量)Markdown/文本✅最佳结构化输出+可部署 开源自部署:适合企业、机构构建私有化流程,降低 SaaS 风险。输出格式友好:Markdown 输出方便编辑、检索、二次加工。

    2.1K30编辑于 2025-10-29
  • 金融财报 + 科研论文双场景实测:DeepSeek-OCR 让数据处理效率翻 6 倍

    上周同时接手两家客户的开发需求:头部券商要 “年报智能分析系统”,高校实验室需 “论文公式结构化工具”,本以为要适配两款 OCR 工具,试了 DeepSeek-OCR 后发现 —— 这3B参数的小模型竟能通吃两大领域 对比之前用的 MinerU2.0,不仅速度快 6 倍,单页处理成本还从 0.7 元压到 0.05 元,两个项目开发周期都从 1 周缩至 3 天。​ 3. 轻量化部署 + 多语言支持,适配场景更灵活​两大领域的落地都绕不开 “部署成本”:券商的分支机构服务器多为 8G 内存配置,高校实验室需处理多语言外文文献。 DeepSeek-OCR 在单张 A100 GPU 上仅占 4.5GB 显存,8G 内存的边缘设备也能流畅运行,批量处理 500 页文档仅需 1 小时。 不用再为密钥管理耗费精力,不用为接口适配写冗余代码,让技术人员能聚焦在 “如何用 DeepSeek-OCR 提升识别精度”“如何优化数据分析逻辑” 这些核心问题上。

    63620编辑于 2025-10-23
  • SAM+CLIP+MoE完美耦合的DeepSeek-OCR:DeepEncoder的低激活压缩架构深度解析

    MoE解码器:兼顾表达与推理效率DeepSeek-OCR的解码器采用DeepSeek-3B-MoE架构。 3. 这不仅是实验的需要,更是工程部署的考量。这些模式允许模型根据输入图像的复杂度和文本密度动态调整Vision Tokens的数量。 3. AI芯片能效比的优化与市场价值从AI芯片的角度看,DeepSeek-OCR的价值在于提高了硬件的有效利用率。LLM推理过程中的瓶颈在于I/O带宽(KV缓存)和注意力计算。 DeepSeek-OCR不仅模型,更是一种能效优化策略。市场对高能效AI基础设施的需求日益增长,这种技术直接提升了AI服务的单位成本效益,在云计算和私有部署市场中具有重要的商业价值。

    48910编辑于 2025-11-03
  • 来自专栏python3

    python3 部署

    前几天去听了北京python-conf,老师们都在宣传python3的各种好处,和自力讨论之后,决定把自己的小项目都升级到python3。其实代码改起来还好,因为都是比较小的项目,问题主要卡在部署。 我使用的云服务器都是ubuntu14.04的,上面默认的python3是3.4版本,而我本地的是3.6.3版本。 python3.6.3 安装py3.6 然后用推荐的python3.6 -m venv virtualenv_name 的方法来创建虚拟环境 此时报错提示apt-get install python3-

    76120发布于 2020-01-06
  • 来自专栏农民工前端

    OCR 模型受全球关注,实测到底谁更出色?

    3. 文明数字化的“转换器” 人类历史与知识大多以纸质或图像形式存在。OCR 技术是实现这些信息数字化、进而成为大模型训练语料的关键前提。 在权威评测基准 OmniBenchDoc V1.5 中,PaddleOCR-VL 展现出全面领先的实用性能: 综合性能第一:以 92.56 的综合得分超越 DeepSeek-OCR-Gundam-M(3B Deepseek-OCR识别不出任何内容。 繁体竖式排版文档 PaddleOCR-VL识别的非常清楚,繁体竖式排版文档分析的非常清楚,并且很完善。 Deepseek-OCR识别乱码了。 PaddleOCR-VL连续 5 天登顶 HuggingFace Trending 全球第一; 同步登顶 ModelScope Trending 全球第一; 跻身 GitHub Python 总榜第 3、 全球总榜第 9; 提供在线 Demo 与完整开源代码,支持快速部署与二次开发。

    1.1K10编辑于 2025-11-13
  • 来自专栏机器学习与统计学

    大模型 OCR 的黄金时代,腾讯开源混元OCR,文档解析、视觉问答和翻译方面达到 SOTA

    DeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 大家好,我是 Ai 学习的老章 大模型 OCR 的黄金时代来了,小红书 dots.ocr-3b、deepseek-ocr -3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B...... 仅使用 1B 参数量,在拍照翻译任务上取得了与 Qwen3-VL-235B 相当的效果。 模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了 不过我看 HunyuanOCR@GitHub 的 README 中写需要 GPU 显存是 80GB,有点离谱啊 它会不会把显存和硬盘容量搞反了 ❓ 国内镜像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR https://huggingface.co/tencent/HunyuanOCR

    1.1K10编辑于 2025-11-29
  • 来自专栏python3

    3.redis集群部署33

    redis集群部署  一:安装redis (使用redis3.0.6版本),同《1.redis安装》 1.下载源码 $ tar xzf redis-3.0.6.tar.gz $ cd redis-3.0.6 每台放3个节点。 分别是16和17 另外一台配置相同、 3.节点部署 A.基础文件 cd /usr/local/ mkdir redis-cluster 创建集群目录 cd redis-cluster mkdir 7003 " b.日志显示报错 无法在10.1.114.17上无法连接10.1.114.16:7000 》》》修改配置文件redis.conf bind 10.1.114.17   只需要绑定本机 4.校验集群部署情况错误 redis-cli -p 6379     127.0.0.1:6379> cluster info 对于我的目录来说在 cd /root/redis/redis-3.0.6/src 校验方法:判断集群是否部署成功

    1.4K40发布于 2020-01-07
领券