首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Lcry个人博客

    利用 cloudstudio 免费 GPU 时长部署 DeepSeek-OCR

    就在上周,人工智能团队DeepSeek AI正式发布全新多模态模型 DeepSeek-OCRDeepSeek-OCR提出:为什么不干脆把这些长文本“截图”成一张图片,然后用Vision Encoder进行高效压缩,再喂给LLM呢? 一键部署项目开源项目地址 DeepSeek-OCR:https://github.com/deepseek-ai/DeepSeek-OCR DeepSeek-OCR-WebUI:https://github.com

    29310编辑于 2026-01-09
  • 再聊一聊deepseek-ocr的应用

    一、DeepSeek-OCR 是什么? (GitHub[5]) 关键命令(节选) •conda create -n deepseek-ocr python=3.12.9 -y && conda activate deepseek-ocr•pip : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [2]GitHub - deepseek-ai/DeepSeek-OCR : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [3]GitHub - deepseek-ai/DeepSeek-OCR : Contexts Optical Compression:https://github.com/deepseek-ai/DeepSeek-OCR [4]GitHub - deepseek-ai/DeepSeek-OCR

    16610编辑于 2026-03-13
  • deepseek-ocr及其他ocr模型衍生应用的思考

    关于deepseek-ocr相关的应用,一个最直观的能力应该是在前端界面上操作可以指定模型完成文档、图表、图像的识别、图像的标注等功能。 官方 DeepSeek-OCR 依赖 Python + Transformers,部署体积大、依赖多,嵌入原生系统成本高。 deepseek-ocr-q4k deepseek-ocr Q4_K 显存非常紧张、本地离线批处理等场景,在牺牲一定精度的前提下压缩模型体积。 deepseek-ocr-q6k deepseek-ocr Q6_K 常规工程环境下的折中选择,在质量与体积之间取得平衡。 deepseek-ocr-q8k deepseek-ocr Q8_0 希望尽量接近全精度质量,同时仍获得一定压缩收益。

    19810编辑于 2026-03-13
  • DeepSeek-OCR vs PaddleOCR-VL

    两条路径,重塑“文档理解”的现在与未来 最近两周,DeepSeek-OCR 与 PaddleOCR-VL 相继刷屏。 DeepSeek-OCR:把“读长文”改成“看图片” DeepSeek-OCR 提出一个大胆思路:不再把长文本作为海量 text token 输入 LLM,而是先用视觉编码器把文本排版“映射为二维图像” (arXiv[7]) 三、两者的“正确打开方式” 如何用好 DeepSeek-OCR? 1.目标优先级:如果你的瓶颈是长上下文 token 成本而不是 OCR 识别本身,那么 DeepSeek-OCR 的压缩范式很可能“降本增效”。 •做长对话/Agent,历史上下文极长且成本敏感: 选 DeepSeek-OCR。它不是“更好的 OCR”,而是 “更经济的长上下文表达” 。

    13610编辑于 2026-03-13
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    33410编辑于 2025-11-29
  • 来自专栏机器学习与统计学

    DeepSeek-OCR桌面客户端,Windows用户优先体验

    使用门槛的开源项目——DeepSeek-OCR Client。 地址:https://github.com/ihatecsv/deepseek-ocr-client DeepSeek-OCR 桌面端 DeepSeek-OCR Client 是一款基于 Electron 框架开发的桌面应用程序,旨在为 DeepSeek-OCR 提供一个实时、高效且用户友好的操作界面。 最后对比一下DeepSeek-OCR Client 和 DeepSeek OCR App DeepSeek-OCR Client: 优势: 纯桌面 GUI 应用(Electron),无需 Docker 特点: 提供了更全面的 OCR 功能和更现代化的 Web 交互体验,但部署需要 Docker 环境,相对 DeepSeek-OCR Client 略显复杂。

    81410编辑于 2025-11-20
  • 来自专栏星河细雨

    DeepSeek-OCR对图像文本模态对齐的思考

    添加图片注释,不超过 140 字(可选) 而Deepseek-ocr[5]本质上是"语言为中心"的设计。将文本转换为图像并通过视觉编码器处理,目的是为LLM记忆提供有损压缩方案。 所以从视觉->语言表征的设计,deepseek-ocr[6]确实提出了比较创新并且具备落地性的方案,在对文字表征上确实有不小作用。 deepseek-ocr确实是很有价值的通过图像压缩文本编码的方法,是图像对齐文本的一种有效编码方式,但不是文本图像模态对齐的通解。 https://arxiv.org/pdf/2509.23661 4.https://arxiv.org/pdf/2510.14349 5.https://github.com/deepseek-ai/DeepSeek-OCR

    25810编辑于 2025-10-28
  • DeepSeek-OCR模型发布背后的重大意义

    DeepSeek-OCR的“上下文光学压缩”技术巧妙地绕过了这一瓶颈。 然而,DeepSeek-OCR在实验中展现了卓越的性能平衡能力。 DeepSeek-OCR的出现,为RAG系统带来了革命性的简化与效率提升。 这种从“天”到“分钟”的效率飞跃,正是DeepSeek-OCR压缩技术带来的直接价值。 DeepSeek-OCR的出现,无疑是通往这一宏伟目标的一个重要里程碑。

    98210编辑于 2025-11-17
  • DeepSeek-OCR:让 AI “一眼看懂” 的黑科技

    一张包含1000个文字的文档图片,只需要不到100个视觉token就能精准识别,这就是DeepSeek-OCR带来的革命性突破。 最近,DeepSeek-AI团队发布了一款名为DeepSeek-OCR的新模型。 而DeepSeek-OCR走了一条与众不同的路:它先把文本变成图像,再用视觉token来压缩表示这些信息。 DeepSeek-OCR是如何工作的?DeepSeek-OCR的架构可以理解为两部分:一个专业的“眼睛”(DeepEncoder编码器)和一个聪明的“大脑”(DeepSeek3B-MoE解码器)。 online free try - https://karavideo.ai/free-tools/deepseek-ocr 卓越的实际性能在专业的OmniDocBench基准测试中:DeepSeek-OCR

    5.2K260编辑于 2025-10-21
  • 当开源 OCR 革命撞上多模态成本困局:我们如何用 Gateone.ai 把 DeepSeek-OCR 变成“印钞机”

    突然开源了 DeepSeek-OCR——一个能将任意 PDF 或图像一键转为结构化 Markdown 的视觉语言模型。 2.性能黑箱用户抱怨“表格识别错位”,但问题是出在 DeepSeek-OCR 本身?还是我们的图像缩放策略?抑或是 PDF 渲染引擎的 DPI 设置? 3.成本不可控更致命的是,DeepSeek-OCR 对长文档处理消耗巨大显存。一次 50 页财报解析,成本是 GPT-4o 的 3 倍。 的标准化多模态 API,我们把 DeepSeek-OCR、GPT-4o Vision、Claude 3.5 Sonnet 全部纳入同一个调度池。 我们将同一份财报分别输入三个模型,系统自动输出:· 表格还原准确率(DeepSeek-OCR:92% vs GPT-4o:85%)· Markdown 结构完整性(DeepSeek-OCR 胜出)· 单页处理成本

    29910编辑于 2025-10-24
  • 来自专栏YOLO大作战

    DeepSeek-OCR:基于光学压缩的上下文处理

    DeepSeek-OCR介绍官方地址:GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression摘要:我们提出DeepSeek-OCR 图3 | DeepSeek-OCR的架构。DeepSeek-OCR由一个DeepEncoder和一个DeepSeek-3B-MoE解码器组成。 通用视觉数据:主要用于向DeepSeek-OCR注入一定的通用图像理解能力,并保留通用视觉接口。 3.4.1. OCR 1.0数据文档数据是DeepSeek-OCR的重中之重。 训练完整的DeepSeek-OCR。请注意,Gundam-master模式是通过在预训练的DeepSeek-OCR模型上,使用600万采样数据继续训练得到的。 训练DeepSeek-OCR在DeepEncoder准备就绪后,我们使用第3.4节中提到的数据训练DeepSeek-OCR,整个训练过程在HAI-LLM [14]平台上进行。

    64331编辑于 2026-01-05
  • 来自专栏福大大架构师每日一题

    ollama v0.13.0 发布:DeepSeek-OCR、Cogito-V2.1 全新支持,性能工具 Bench 正式上线

    2025 年 11 月 19 日,Ollama 发布了 v0.13.0 版本,本次更新带来了多个重要的新特性与性能优化,包括全新的 DeepSeek-OCR 模型支持、Cogito-V2.1 模型上线、 DeepSeek-OCR DeepSeek-OCR 使用 光学二维映射 (optical 2D mapping) 技术压缩长上下文,在减少视觉 token 的同时,提升 OCR 精度,特别适合文档处理场景 the image." ollama run deepseek-ocr "/path/to/image\nFree OCR." ollama run deepseek-ocr "/path/to/image run deepseek-ocr "/path/to/image\n<|grounding|>Convert the document to markdown." 2. DeepSeek-OCR 支持 2. DeepSeek-V3.1 架构支持于 Ollama 引擎 3. 修复 Ollama 0.12.11 在 CUDA 上的性能问题 4.

    52510编辑于 2025-12-19
  • SAM+CLIP+MoE完美耦合的DeepSeek-OCR:DeepEncoder的低激活压缩架构深度解析

    DeepSeek-OCR论文提出了一种创新的视角,将视觉模态视作一种高效的文本压缩介质。 DeepSeek-OCR作为这一范式的初步概念验证(Proof-of-Concept),旨在探索视觉-文本压缩的边界。 MoE解码器:兼顾表达与推理效率DeepSeek-OCR的解码器采用DeepSeek-3B-MoE架构。 实用性能与生产力释放在OmniDocBench真实文档解析任务上,DeepSeek-OCR展现出超越现有先进模型的实用能力:Token效率领先: DeepSeek-OCR使用最少的Vision Tokens DeepSeek-OCR所提供的近乎无损的超高压缩比,正是解决这些问题的关键工程实践路径之一。

    45310编辑于 2025-11-03
  • 来自专栏机器学习与统计学

    【教程】DeepSeek-OCR本地部署(上):CUDA 升级12.9,vLLM升级至最新稳定版

    大家好,我是 Ai 学习的老章 DeepSeek-OCR 开源有段时间了,我曾详细测试过DeepSeek 最新开源 OCR 模型,实测,也推荐过基于它的 web 端应用:一个强大的开源 OCR 工具,基于 DeepSeek OCR,还有一个桌面客户端:DeepSeek-OCR 桌面客户端,Windows 用户优先体验 DeepSeek-OCR 官方项目 README: https://github.com /deepseek-ai/DeepSeek-OCR 中有关于 vllm 0.8.5+cu118+transformers>=4.51.1 下进行离线推理的详细步骤,但是教程中在线推理部分 vLLM 还是 正好,vLLM 最新版来了,V0.11.2 稳定版原生支持 DeepSeek-OCR,使用 OpenAI API 兼容格式的在线推理,方便多了 。 后面就是用 VLLM 的 Docker 拉起 DeepSeek-OCR 了 测试很 OK,单卡 4090 很顺畅,具体步骤就要下文了

    1.8K10编辑于 2025-11-29
  • DeepSeek-OCR 轻量化文档理解,3分钟私有部署搞定

    DeepSeek-OCR解决传统OCR的低效问题:它不再执着于“把窗口做大”(扩展注意力窗口),而是选择“把内容变小”。 论文名称:DeepSeek-OCR:ContextsOpticalCompression一键直达原文一键进行项目复现DeepSeek-OCR技术突破DeepSeek-OCR的颠覆之处,在于提出了一个全新思路 相比于传统OCR处理一张图需上千个视觉token,DeepSeek-OCR只需几十个,压缩比高达10-20倍。它能够在10倍压缩时仍保持96%识别精度,几乎不损失信息。 DeepSeek-OCR架构拆解DeepSeek-OCR的强大性能源于“压缩+解码”的精妙架构设计,两大核心模块各司其职、高效配合:1.DeepEncoder:双阶段视觉压缩引擎(AI光学压缩器)它负责把复杂文档图像 Lab4AI项目指路Step1启动项目登录Lab4AI,在“项目复现”中找到DeepSeek-OCR轻量化复现方案,选择GPU资源进行项目复现,平台将自动创建运行环境,无需手动安装依赖。

    52100编辑于 2025-12-03
  • 来自专栏深度学习与python

    Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上

    作者 | 褚杏娟 昨天,DeepSeek 发布了一个新模型 DeepSeek-OCR。 开源地址及论文全文: https://github.com/deepseek-ai/DeepSeek-OCR 这篇论文引发了不少人关注,其中 Karpathy 就直言:“我很喜欢这篇新的 DeepSeek-OCR 这也解释了为什么 DeepSeek-OCR 采用了仅 12 层的精简架构。 测 试 DeepSeek-OCR 的发布也吸引了大量开发者尝试,目前官方只提供了基于 PyTorch + CUDA 的权重文件。 Simon 实践后表示,DeepSeek-OCR 本身的效果也不错,只要花点时间调整提示和运行方式,表现就非常出色。

    35810编辑于 2025-11-26
  • 来自专栏农民工前端

    OCR 模型受全球关注,实测到底谁更出色?

    其中,百度飞桨团队于 10 月 16 日开源的 PaddleOCR-VL 模型持续登顶 Trending 榜首至今,以及随后发布DeepSeek发布的DeepSeek-OCR ,成为当前最受全球开发者关注的模型 二、双雄并起:DeepSeek-OCR 的理论创新与 PaddleOCR-VL 的实用领先 在本轮 OCR 竞赛中,DeepSeek-OCR 与 PaddleOCR-VL 分别代表了两种不同的技术路径与价值主张 Deepseek-OCR识别不出任何内容。 繁体竖式排版文档 PaddleOCR-VL识别的非常清楚,繁体竖式排版文档分析的非常清楚,并且很完善。 Deepseek-OCR识别乱码了。 相比之下,DeepSeek-OCR 虽在某些任务上具备潜力,但在实际复杂场景中仍存在部分漏识别、结构误判、甚至“幻觉生成”等问题。 原文链接:https://huggingface.co/deepseek-ai/DeepSeek-OCR 五、OCR 进入“实用驱动”新时代 如果说 DeepSeek-OCR 代表了 OCR 在“大模型上下文压缩

    95010编辑于 2025-11-13
  • DeepSeek-OCR 能 “把万字文档压成一张图”:我们如何用 Gateone.ai 把文本视觉压缩变成可规模化的多模态数据引擎

    DeepSeek-OCR 能 “把万字文档压成一张图”:我们如何用 Gateone.ai 把文本视觉压缩变成可规模化的多模态数据引擎就在我们为多模态训练数据的高昂采集成本与低效标注流程焦头烂额时,DeepSeek 突然开源了 DeepSeek-OCR—— 一个能将整页文本 “视觉压缩” 成极简图像表示的新型 OCR 模型,在压缩比高达 10 倍时仍保持 97% 的识别准确率,最高压缩比逼近 20 倍,支持近百种语言 一、文本视觉压缩的 “技术奇点” 与工程断层我们第一时间将 DeepSeek-OCR 接入内部多模态训练平台,试图用它自动化生成百万级图文对,却迅速撞上三重壁垒:1. )多语言对齐(如 NLLB 翻译 + 跨语言嵌入)然而 DeepSeek-OCR 仅提供独立推理接口 —— 无法接收上游结构化输入,也无法输出标准化 token 映射,导致整个数据生成链路被迫中断。 二、Gateone.ai:为 DeepSeek-OCR 装上 “多模态数据中枢” 与 “压缩 ROI 仪表盘”转机出现在我们将 DeepSeek-OCR 接入 Gateone.ai 的那一刻 —— 它不再是一个孤立的

    38810编辑于 2025-10-29
  • 一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!

    就在百度刚刚发布PaddleOCR-VL,以0.9B参数量重新定义文档解析效率之际,DeepSeek也正式开源了其颠覆性的DeepSeek-OCR模型。 GitHub上的火爆程度印证了这一突破的重要性——DeepSeek-OCR项目一晚上就斩获超过4000个Star,成为近期最受关注的开源项目之一。为什么说这是颠覆性技术? DeepSeek-OCR正是让AI学会了这种高效的信息处理方式。 论文及项目地址论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf代码仓库:https:// github.com/deepseek-ai/DeepSeek-OCR模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    58610编辑于 2025-10-22
  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL PaddleOCR-VL参数最小,效果最好,然后因为发的刚好早了三四天,所以表里没有DeepSeek-OCR的跑分,但是OmniDocBench v1.5的最新跑分昨天也出炉了,DeepSeek-OCR 而且实测确实会比DeepSeek-OCR准确更高,DeepSeek-OCR提取的时候总是会错一两个字,PaddleOCR-VL是一字不错,当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型,毕竟意义还是不太一样 DeepSeek-OCR探索的上下文光学压缩确实非常新,也打开了大家对人类视觉感知的一些新的想象。

    84920编辑于 2025-11-18
领券