首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理

    DeepEncoder:编码器+MoE解码器为实现“高压缩比、低资源消耗”的目标,DeepSeek-OCR采用了“DeepEncoder(编码器)+DeepSeek3B-MoE(解码器)”的端到端架构, 1.DeepEncoder作为模型的“压缩核心”,DeepEncoder需同时满足“高分辨率处理、低激活开销、少token输出”三大需求,其架构设计暗藏巧思:双组件串联:由8000万参数的SAM-base 快速文本重建:从DeepEncoder输出的压缩视觉token中,解码器能精准重建原始文本,甚至支持markdown格式转换、图表结构化提取等复杂任务,无需额外的后处理模块。

    30810编辑于 2025-11-14
  • 来自专栏YOLO大作战

    DeepSeek-OCR:基于光学压缩的上下文处理

    因此,我们自行设计了一种新颖的视觉编码器,命名为DeepEncoder。3.2.1. DeepEncoder的架构DeepEncoder主要由两个组件构成:一个以窗口注意力为主的视觉感知特征提取组件,和一个具有密集全局注意力的视觉知识特征提取组件。 解码器从DeepEncoder压缩的潜在视觉标记中重建原始文本表示,如下所示: 3.4. 训练DeepEncoder遵循Vary [36]的方法,我们利用一个紧凑语言模型[15]并使用下一标记预测框架来训练DeepEncoder。 整个模型使用流水线并行(PP),分为4部分,DeepEncoder占两部分,解码器占两部分。

    61231编辑于 2026-01-05
  • 一夜之间,大模型处理长文本的难题被DeepSeek新模型彻底颠覆!

    技术核心:两大组件实现“四两拨千斤”DeepEncoder编码器 - 视觉压缩的核心引擎DeepEncoder采用创新的“先局部、再压缩、后全局”的三段式设计:局部感知阶段:使用80M的SAM-base 模型进行窗口注意力处理,生成大量视觉token智能压缩阶段:通过16倍卷积压缩器大幅减少token数量(4096→256)全局理解阶段:利用300M的CLIP-large模型深入理解压缩后的token这种设计使得DeepEncoder

    55510编辑于 2025-10-22
  • SAM+CLIP+MoE完美耦合的DeepSeek-OCR:DeepEncoder的低激活压缩架构深度解析

    一、 核心架构:DeepEncoder与MoE解码器的耦合策略DeepSeek-OCR的技术架构设计,体现了在保证高感知能力和推理效率上的精妙平衡,尤其关注高分辨率输入与低激活内存之间的矛盾管理。 DeepEncoder:高分辨率下的低激活压缩引擎DeepEncoder是实现上下文光学压缩的核心。其设计目标是:处理高分辨率图像,同时维持较低的激活内存和最少的Vision Tokens。 架构上,DeepEncoder采用了串联式结构,整合了两种关键注意力机制:局部感知组件: 基于SAM(Segment Anything Model)的编码器,主要负责窗口注意力(Window Attention 多分辨率模式:面向工程实用性的动态配置为了探测量化边界和增强实用性,DeepEncoder配置了多种分辨率模式(Tiny, Small, Base, Large, Gundam, Gundam-Master LLM处理长对话历史或超大文档时,通过将历史上下文渲染为图像,再通过DeepEncoder压缩成少量Vision Tokens,将原本可能高达数万个文本Tokens的输入序列转化为数百个视觉Tokens

    43610编辑于 2025-11-03
  • 来自专栏AI SPPECH

    11:DeepSeek-OCR-2 深度解析

    : HOS(安全风信子) 日期: 2026-02-05 主要来源平台: ModelScope 摘要: DeepSeek-OCR-2 作为 DeepSeek 团队开源的第二代 OCR 模型,基于 DeepEncoder 核心更新亮点与全新要素 2.1 核心更新亮点 DeepEncoder V2 架构:采用全新的 DeepEncoder V2 架构,大幅提升特征提取能力 因果流查询机制:引入因果流查询机制,实现文档内容的顺序理解 技术深度拆解与实现分析 3.1 系统架构 DeepSeek-OCR-2 采用分层架构设计,主要包含以下核心组件: 系统架构说明: 输入层:负责文档图像的预处理和特征提取 编码层:采用 DeepEncoder V2 架构,融合因果流查询和双流注意力机制 解码层:实现文本解码、语义理解和结构化输出 后处理层:处理最终输出结果,确保格式标准化和准确性 3.2 核心技术实现 3.2.1 DeepEncoder V2 架构 DeepEncoder V2 是 DeepSeek-OCR-2 的核心特征提取架构,相比第一代有了显著改进: # DeepEncoder V2 核心实现 class DeepEncoderV2(

    51010编辑于 2026-02-08
  • DeepSeek-OCR:让 AI “一眼看懂” 的黑科技

    DeepSeek-OCR的架构可以理解为两部分:一个专业的“眼睛”(DeepEncoder编码器)和一个聪明的“大脑”(DeepSeek3B-MoE解码器)。 那双“专业眼睛”:DeepEncoder这双眼睛的厉害之处在于它能在高分辨率输入下保持低计算消耗,同时实现高效的视觉压缩。 当它看到一张1024×1024的文档图片时,传统视觉模型可能会生成4096个token,而DeepEncoder能将其压缩到仅256个token。

    5.2K260编辑于 2025-10-21
  • 来自专栏DeepHub IMBA

    DeepSeek=发布视觉压缩OCR模型 DeepSeek-OCR,哪些信息和技术亮点值得关注?

    这就是论文标题里那句“Contexts Optical Compression”的意思 模型架构也由两个部分组成: 一个是 DeepEncoder,负责把输入的图像压成很紧凑的视觉 token; 另一个是 DeepEncoder 的视觉处理部分 + MoE 的专家调度,推理开销可能并不小。

    26110编辑于 2025-11-15
  • 今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?

    让编码器学会“有逻辑地看”团队将这个新核心称为 DeepEncoder V2。它的设计目标很明确:把视觉编码从“固定扫描”变成“语义推理”。怎么做到的?靠的是几个环环相扣的巧思。 不止于文档:一个统一编码器的野望在我看来,DeepEncoder V2 的潜力恐怕不止于解读文档。论文里已经隐约指出了更大的图景:它有望演变成一个统一的全模态编码器。 如果能把 DeepEncoder V2 这种因果推理能力嵌入机器人的视觉系统,会发生什么?

    36730编辑于 2026-01-28
  • 来自专栏【腾讯云开发者】

    DeepSeek鬼才创举,OCR是啥?腾讯是怎么做的?

    该模型由DeepEncoder与DeepSeek3B-MoE组成,可将文本信息映射为二维图像并高效解码,实现10倍压缩下97%识别精度,20倍压缩仍保持约60%。 根据《DeepSeek-OCR: Contexts Optical Compression》这篇论文,最新 3B 模型的核心信息总结如下: DeepSeek-OCR模型架构:该模型由两大部分组成——DeepEncoder DeepEncoder专门设计用于高分辨率输入时,保持低激活并实现高压缩比。 DeepEncoder的创新设计:DeepEncoder采用了窗口注意力和全局注意力相结合的方式,并引入了一个16倍卷积压缩模块,有效减少了视觉令牌的数量,同时确保了处理高分辨率图像时的激活内存控制。

    96321编辑于 2025-10-24
  • DeepSeek-OCR vs PaddleOCR-VL

    核心组件包含 DeepEncoder(高分辨率但低激活的视觉编码器)与 DeepSeek3B-MoE-A570M 解码器(专家路由的混合专家模型)。 DeepSeek-OCR PaddleOCR-VL 基本思想 把长文本映射为图像,用视觉 token 压缩上下文,再解码还原 直接多模态解析页面元素(文本/表格/公式/图表),产出结构化/可读结果 核心组件 DeepEncoder 参考与延伸阅读 •DeepSeek-OCR 论文/解读与媒体报道:上下文光学压缩、10× 压缩≈97% 精度、组件(DeepEncoder + 3B-MoE)、实践记录与部署指南等。

    900编辑于 2026-03-13
  • DeepSeek-OCR模型发布背后的重大意义

    它通过将整页或整段的文本内容渲染成高分辨率的图像,然后利用一个专门设计的视觉编码器(DeepEncoder)将这张图像压缩成数量极少的“视觉Token”。 接下来,这张高分辨率的文本图像被送入一个名为DeepEncoder的专用视觉编码器。该编码器的作用是将这张图像进行深度特征提取和高度压缩,最终生成一组数量非常有限的视觉Token。 该架构由两个核心组件构成:一个负责高效压缩的编码器(DeepEncoder)和一个负责精准解码的稀疏混合专家模型(DeepSeek3B-MoE)。 DeepEncoder是DeepSeek-OCR架构中的核心引擎,其设计目标是解决传统视觉编码器中存在的“高分辨率-低内存-少Token”三者不可兼得的矛盾 。 而DeepEncoder通过创新的架构设计,实现了在高分辨率输入下的低激活内存占用和高效的Token压缩。

    94110编辑于 2025-11-17
  • 复杂部署退退退!DeepSeek-OCR 轻量化文档理解,3分钟私有部署搞定

    DeepSeek-OCR架构拆解DeepSeek-OCR的强大性能源于“压缩+解码”的精妙架构设计,两大核心模块各司其职、高效配合:1.DeepEncoder:双阶段视觉压缩引擎(AI光学压缩器)它负责把复杂文档图像

    49500编辑于 2025-12-03
  • 来自专栏小七的各种胡思乱想

    解密Prompt系列66. 视觉Token爆炸→DeepSeek-OCR光学压缩

    串行压缩的 DeepEncoder 架构DeepSeek-OCR 的 DeepEncoder 仅有 380M 参数,但通过巧妙的串行(Serial)结构,完美平衡了“高分辨率”与“低 Token 数”的需求 通用文本和图像:保证Decoder和CLIP Encoder的通用文本和图像能力的灾难性遗忘使用以上数据论文进行了两阶段的模型训练DeepEncoder预热训练:让编码器输出高质量图像Token,有点类似先训练

    50330编辑于 2025-12-12
  • 金融财报 + 科研论文双场景实测:DeepSeek-OCR 让数据处理效率翻 6 倍

    DeepSeek-OCR 的 “压缩 - 解压” 链路彻底解决了这个问题:通过 DeepEncoder 模块将每页文本转成 256 个视觉 token,286 页年报仅需 7.3 万 token,是传统文本

    55620编辑于 2025-10-23
  • 来自专栏算法一只狗

    DeepSeek-OCR 2:让模型“先学会怎么看”,再学会读

    这一模型的核心突破在于其独特的双组件设计:DeepEncoder编码器和MoE解码器。在OCR-2新版本中,主要变化在于Encoder编码器,其Decoder编码器没有很大的改动。

    43540编辑于 2026-01-29
  • 牛逼,DeepSeek-OCR 最新免费,引爆文档处理效率的黑科技模型

    技术架构架构图技术优势整理模块优势描述视觉编码(DeepEncoder)将文档元素转为视觉 tokens,信息密度高、结构感强。

    2K30编辑于 2025-10-29
  • 来自专栏深度学习与python

    Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上

    这是一个专门为 OCR(文字识别)微调的 6.6GB 模型,主要贡献在于首次量化 “视觉 - 文本 token 压缩比”,验证 10× 近无损压缩、20× 仍保有 60% 精度的可行性;提出 DeepEncoder

    32810编辑于 2025-11-26
  • 来自专栏技术专栏全家桶

    大模型之DeepSeek-OCR2快速入门实战教程

    DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分

    1.4K10编辑于 2026-02-03
  • 来自专栏Alter聊科技

    当AI席卷一切,这些10+年创始人如何打出自己的王牌?

    6天后的1月27日,DeepSeek开源了DeepSeek-OCR2,提出了一种全新的DeepEncoder V2架构,可以像人类一样按逻辑顺序阅读复杂文档,显著提升了表格、文档、公式的识别与理解效果.

    10610编辑于 2026-02-03
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    然后,它立刻调用内部的DeepEncoder编码器,把这张包含海量文字的截图,压缩成大概只有原来10分之1的视觉Token,然后一起扔到上下文中,记到脑子里。

    36310编辑于 2025-11-18
领券