首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >由DeepSeek-OCR对图像文本模态对齐的思考

由DeepSeek-OCR对图像文本模态对齐的思考

作者头像
小陡坡香菜
发布2025-10-28 13:34:01
发布2025-10-28 13:34:01
2460
举报
文章被收录于专栏:星河细雨星河细雨

deepseek这篇论文得到广泛关注,主要是提出的视觉编码文字相比token编码文字具有更高的效率,论文introduction部分提到核心思路:leveraging visual modality as an efficient compression medium for textual information,这句话概括了技术实现思路,通过视觉模态压缩文本信息是一种有效的文本信息表征方式。刚好想到多模态对齐,就结合目前的多模态背景来谈一下自己的观点。

我们看到现在大部分的VLM现在都是以text 模态为中心,图像信息得到的representation最终会对齐到text空间上,基于对齐合并后的text representation再去进行推理完成任务,这背后的一个原因是现在缺乏一个有效的表征图像的方法,或者是视觉基础模型还没有到达llm的chatgpt时刻,veo3那篇论文[1]分析视觉基础模型应该通过视频模型来实现通用泛化生成理解,这个后面也会聊到。另外目前很多视觉文本融合的方法是基于划分patch的视觉信息编码对图像进行离散化处理得到图像表征,加上llm在training,test上scaling的进展,很自然的将图像模态对齐到文本模态,由llm来处理统一模态表征完成各类任务,这个范式也叫mllm(multimodal large language model ),现在vlm和mllm两个领域其实存在很大重叠。近期推出的工作有qwen3-vl[2],llava-onevison-1.5[3],都是先提取视觉patch特征进行编码,然后与文本表示进行对齐合并,统一经过一个lm来产生输出。

添加图片注释,不超过 140 字(可选)

但也看到一些以视觉为中心的多模态对齐方法(vision-centric),比如最近发的几篇文章由上交和蚂蚁合作的Vaco[4],引入了多个视觉基础模型,整合从多个视觉基础模型(VFMs)提取的任务感知特征,通过将视觉token与文本token进行联合优化。

添加图片注释,不超过 140 字(可选)

但是不管是否以视觉为中心,语言空间和图像空间的对齐是一个核心问题。而ocr恰好是图像如何对齐语言的一种特定任务,与最近发布的paddleocr-vl对比,PaddleOCR-VL[]使用传统VLM架构,以视觉为主导,通过原生分辨率和动态处理来保留视觉细节。

添加图片注释,不超过 140 字(可选)

而Deepseek-ocr[5]本质上是"语言为中心"的设计。将文本转换为图像并通过视觉编码器处理,目的是为LLM记忆提供有损压缩方案。所以从视觉->语言表征的设计,deepseek-ocr[6]确实提出了比较创新并且具备落地性的方案,在对文字表征上确实有不小作用。

添加图片注释,不超过 140 字(可选)

但现在视觉文本对齐的问题,我觉得更难的不是单向图像到文字的对齐,而是文字到图像的对齐,图像到文字上的对齐是"压缩",文字到图像的对齐是"扩展",扩展的难度在于更大的空间要求可控还原。比如文生图现在的效果确实也越来越好,但一旦需要严谨核对,就会出现各种违背事实的问题。但关键还是在于两个模态的隔阂,比如六个手指的图片,现在的模型都基本会回答五个,这可能是先验知识过强导致了视觉理解偏差,更有可能是在common sense层面,两个模态的信息就完全没对齐。

所以两个模态的单向的打通和双向打通难度是不一样的。另外现在模态对齐更难的是时间维度上的对齐,前面也提到veo3的视频多模态模型为视觉迈向通用化的训练基础,这个参考llm也好理解,因为LLM本身是时序模型,已经具备在文本世界的时序推理能力,而目前的视频生成模型还没有突破对物理规律的基础理解,虽然有genie3,sora2,还有李飞飞团队最近发布的RTFM[7],但是这些工作都没有非常solid的理论和证据表明实现对现实世界的理解。

deepseek-ocr确实是很有价值的通过图像压缩文本编码的方法,是图像对齐文本的一种有效编码方式,但不是文本图像模态对齐的通解。

参考文献:

1https://arxiv.org/pdf/2509.20328

2.https://github.com/QwenLM/Qwen3-VL

3.https://arxiv.org/pdf/2509.23661

4.https://arxiv.org/pdf/2510.14349

5.https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

6.https://arxiv.org/pdf/2510.14528

7.https://www.worldlabs.ai/blog/rtfm

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 星河细雨 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档