在本篇论文中,研究人员利用NaViT(原生分辨率ViT)的这一优势,在训练过程中使用序列打包,来处理任意分辨率和长宽比的输入内容。 如下图所示,NaViT在预训练期间(左图)有显著的计算效率,并可用于下游微调(中图)。 且单个NaViT可成功应用于多个分辨率(右图),在性能和推理成本之间实现平衡。 除非另有说明,所有NaViT模型都是在没有这些操作的情况下进行预训练的,并保留了原有的长宽比。 NaViT使用FLAX库,在JAX中实现,并在Scenic中进行构建。 下图展示了使用NaViT-L/16或ViT-L/16评估根据公平性相关信号训练的注释器的准确性。 左图:NaViT提供了更好的表示方法,提高了注释器的准确性。 由此产生的NaViT模型可在推理时应用于多种分辨率,并以低成本适应新任务。
2.Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution 标题:补丁包:NaViT,适用于任何宽高比和分辨率的视觉转换器 我们利用 NaViT(原生分辨率 ViT)来利用这一点,它在训练期间使用序列打包来处理任意分辨率和宽高比的输入。除了灵活的模型使用之外,我们还展示了大规模监督和对比图像文本预训练的训练效率的提高。 NaViT 可以有效地转移到图像和视频分类、对象检测和语义分割等标准任务,并提高鲁棒性和公平性基准的结果。在推理时,输入分辨率的灵活性可用于平稳地进行测试时的成本性能权衡。 我们相信 NaViT 标志着与大多数计算机视觉模型使用的标准、CNN 设计的输入和建模管道的背离,并代表了 ViT 的一个有前途的方向。
ModelScope 摘要: 本文深入解析腾讯优图实验室开源的Youtu-Parsing文档解析模型,探讨其如何基于2B参数Youtu-LLM构建高效文档解析系统,通过融合prompt-guided框架与NaViT 其基于2B参数Youtu-LLM构建的文档解析模型,融合prompt-guided框架与NaViT动态视觉编码器,支持像素级文本定位、公式/表格/图表结构化识别及Token+查询双并行推理(提速5-11 核心更新亮点与全新要素 2.1 全新要素一:NaViT动态视觉编码器 Youtu-Parsing采用了创新的NaViT动态视觉编码器: 动态视觉编码:根据文档内容动态调整视觉编码策略 自适应分辨率:对文档不同区域采用不同的分辨率处理 技术深度拆解与实现分析 3.1 核心架构设计 Youtu-Parsing采用了模块化的端到端架构,主要包括以下组件: 3.2 NaViT动态视觉编码器实现 NaViT动态视觉编码器是Youtu-Parsing 实现流程如下: 自适应分辨率处理:根据文档区域的重要性和复杂度调整分辨率 稀疏注意力机制:只关注文档中的关键区域,减少计算量 多尺度特征提取:从不同尺度提取视觉特征 特征融合:将多尺度特征融合为统一的表示 # NaViT
Sora 秘方的核心:探索时空补丁 时空补丁是 Sora 创新的核心,建立在 Google DeepMind 对 NaViT 和 ViT(视觉 Transformer)的早期研究基础上,该研究基于 2021 视频时态数据切片的可视化 — 来源:kitasenjudesign Sora 将视频视为很多补丁序列,这样就保持了原始的宽高比和分辨率,和 NaViT 对图像的处理机制很像。 可变“补丁”,NaVit 与传统视觉 Transformers 的对比,来源:Dehghani et al., 2023 正如 NaViT 模型将不同图像的多个补丁打包到单个序列中的方法展示了显著的训练效率和性能增益一样
猜测:Sora可能还会使用谷歌的Patch n‘Pack(Navit),以使DIT能够适应不同的分辨率/持续时间/长宽比。 它建立在Google DeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。 而通过将视频视为patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。 这种保存,对于捕捉视觉数据的真正本质至关重要! 可变Patches NaVit与传统的视觉Transformer NaViT模型通过将来自不同图像的多个patch打包到单个序列中,得到了显著的训练效率和性能提升一样。
实测截图 (左:手写笔记原图 右:识别结果+Markdown导出): 实测结论 :NaViT动态分辨率编码器轻松应对,精准分区识别手写汉字、公式、草图,手写字体识别准确率95%以上,公式可导出LaTeX 核心在于两大技术创新,不用太深究原理,懂应用逻辑就够了: 视觉编码升级:NaViT动态分辨率编码器 不同于传统固定分辨率的编码器,NaViT能根据文档的清晰度、尺寸,动态调整编码分辨率——清晰区域用高精度编码
先进的多模态大模型(Large Multi-Modal Models, LMMs)通常基于大语言模型(Large Language Models, LLMs)结合原生分辨率视觉 Transformer(NaViT 介绍 当前,以 Qwen2.5-VL 为代表的多模态大模型(LMMs)通常基于强大的语言模型(如 Qwen2.5)结合外部原生分辨率视觉 Transformer(NaViT)构建。
它建立在Google DeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。 而通过将视频视为Patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。 这种保存,对于捕捉视觉数据的真正本质至关重要!
clarifai.com[3]) PaddleOCR-VL:0.9B 级 VLM,面向“多语种 + 元素级”文档解析 PaddleOCR-VL 则是另一条路:它直接把复杂版式文档当作视觉-语言理解问题,基于 NaViT 基本思想 把长文本映射为图像,用视觉 token 压缩上下文,再解码还原 直接多模态解析页面元素(文本/表格/公式/图表),产出结构化/可读结果 核心组件 DeepEncoder + 3B-MoE 解码器 NaViT
猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。 可扩展性是DiT论文的核心主题。
NaViT(2023 年 7 月):以前的 Tokenizer 一般只能处理固定的分辨率和纵横比,一般会在训练前把各种分辨率或纵横比的数据转换成系统能处理的统一格式。 NaViT 主要解决了这个问题,可以处理不同分辨率和纵横比的视频数据。 对于不同分辨率和纵横比各种格式,它很可能借鉴了 NaViT 的方法来处理。 3. 模型规模多大? Sora 的参数规模可能在 100 亿级别。 4. 训练数据多大? : ViT: Image https://arxiv.org/pdf/2010.11929.pdf ViViT: Video https://arxiv.org/pdf/2103.15691.pdf NaViT
第二阶段由PaddleOCR-VL-0.9B进行细粒度识别,该模型采用LLaVA架构风格,融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在效率与精度上取得了双重突破。
改进DiT:适配任意分辨率和时长 网上的很多分享都在传Sora能适配任意分辨率和时长是参考了NaViT这篇文章的做法,其实并非如此,Vision Transformer (ViT)本身就能够处理任意分辨率 NaViT只是提供了一种高效训练的方法。 接下来我们来思考下DiT如何处理不同分辨率和时长的视频数据呢? research/video-generation-models-as-world-simulators Video LDM, https://arxiv.org/pdf/2304.08818.pdf NaViT
其中,Spacetime Patch 建立在 GoogleDeepMind 对 NaViT(原生分辨率视觉 Transformer)和 ViT(视觉 Transformer)的早期研究基础上。
不同的分辨率输入在训练时候带来的是大量的计算负载不均衡,一个最简单的做法就是直接padding到固定大小这种做大会引入大量不必要的计算量, 我们从openai的reference中推测他可能使用了google的NaVit
因此,一个大的 ViT(视觉 Transformer)可能会成为一个显著的吞吐量瓶颈,这也是我们选择一个中等规模 ViT(POINTS1.5 中使用的 6 亿参数的 NaViT)的原因。
Diffusion transformer (DiT)架构(Scalable Diffusion Models with Transformers),还是时空patch思想(Patch n' Pack: NaViT
它建立在Google DeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。
其核心技术包括 NaViT 视觉编码器和深度推理能力,支持自检和修订。在 OpenCompass 基准测试中,Ovis2.5-9B 取得了 78.3 的平均分,处于开源 MLLM 中的领先地位。
小红书开源多模态大模型 8 月 7 日,小红书 hi lab(人文智能实验室)开源了其首款多模态大模型 dots.vlm1,这一模型基于 DeepSeek V3 打造,并配备了由小红书自研的 12 亿参数视觉编码器 NaViT