在文本分词器的基础上,GPT-4 也会将视觉输入(图像/视频)“分词”为图像标记,这些标记的数量将决定您的 API 调用成本。因此,了解分词器的工作原理(或者至少掌握如何使用代码预先计算标记数量)非常重要,以免您的 API 账单超出预期。
以Qwen2.5 VL 3B为例,patch_size=14,输入图像按照14 * 14划分成多个patch块。对于尺寸为(H * W)的图像,视觉token数为:N = (H/14) * (W/14)如果直接做Attention注意力计算,时间复杂度为:O(N^2)。Qwen VL采用window attention,按照window size把原始图片分成多块,比如window size=112,每个窗口内包含(112/14) * (112/14) = 8 * 8个patch块。多个块内做Attention注意力计算。时间复杂度可近似写为:O(N * W^2),W为每个窗口内patch数,N为窗口数量。
本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。 不同任务常用benchmark如下: VLM benchmark: MM-Vet MMBench MMBench-CN SEED-Bench LLaVA-Bench MME 测幻觉:POPE 其中MM-Vet 归纳了VLM需要具备的6种能力,并组合出16种任务,比例如下: Image Caption COCO MM-IT-Cap Visual Question Answering(VQA) VQAv2 VizWiz
AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM,代码已开源! 我们在VLM中输入整个视频、一个虚拟文本令牌和一个孤立的注意力mask。然后,我们在VLM最后一层的每个视频token的隐藏状态之上添加一个分类头(带有预先定义的标签数量)。 VLM优于其他baseline,表明其良好的token级视频表示。 上表展示了在CrossTask数据集上,VLM在Action Step Localization任务上的实验结果。 从结果上看,VLM的性能优于其他baseline。 最后,作者使用自回归注意力mask和其他具有显式文本解码器的baseline来评估VLM在视频字幕上的性能。 Ablation Study 上表展示了VLM在Youcook2数据集上检索效果的消融实验结果。 上表展示了VLM在Youcook2数据集上captioning效果的消融实验结果。
1.2 方法改进 为了提高WalkVLM的效果,研究人员提出了以下改进措施: 1)使用Chain of Thought(CoT)架构逐步将信息从三个层次输入到视觉语言模型(VLM),并在测试时让模型预测上述属性并生成相应的响应 3)引入了Temporal-Aware Adaptive Prediction(TAP)模块,利用历史信息预估是否需要触发VLM,从而减少硬件计算压力。
作者认为VLM异常检测存在结构过度滥用,文本提示并非必须等问题,为解决这些问题,本文重新思考了视觉-语言模型在异常检测中的核心机制,并提出了一种极其简洁、实现了language-free的VLM,通用且高效的通用视觉异常检测框架 个人看法,就是把CLIP去掉了文本提示,实现了图像-文本解耦的方式完成了异常检测,个人猜测作者肯定参考了DINO系列模型,因为DINO系列模型已经证明了零样本缺陷检测,可以不需要文本提示,所以作者从VLM 模型入手,通过两个层次解耦跟去掉文本编码提示部分,修改VLM完成了一个通用的异常检测模型框架。
DINO 算法生成具有可解释注意力图的模型:最后一个注意力层自然地关注图像语义一致的部分(图 2)。这允许对象发现算法,例如 LOST。但是,由于特征图中存在伪影,这些方法不再适用于 DINOv2 和其他 ViT(DeiT-III 和 OpenCLIP)。
VLM 传统的计算机视觉需要为每个任务单独建模。VLM通过自然语言指令处理多项视觉任务,采用单一架构:视觉编码器将图像转换为标记,投影层将其与语言模型嵌入对齐,LLM解码器生成响应。 视觉语言模型(VLM)的核心能力包含: 1. 图像描述生成:基于图像内容生成描述性文本。 2. 视觉问答(VQA):回答与图像内容相关的问题。 3. 文本到图像生成:根据文本描述创建图像。 4.
SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving 作者:Peizheng Li, Zhenghao Zhang 但真正把它接到驾驶规划上,一个经常被低估的问题会马上暴露出来:VLM 擅长理解“场景在表达什么”,却不天然擅长理解“目标具体在哪里、几何关系是什么、轨迹在三维空间里是否真的可执行”。 一、VLM真正的瓶颈在于空间表示方式不对 很多 VLM-based 自动驾驶方法,看上去已经能完成场景描述、反事实问答和轨迹规划,但底层仍然沿用一种不太合理的机制:把坐标写成字符串,再让语言模型像生成句子一样逐位生成轨迹 也就是说,SpaceDrive 的结论不是“再加一个 BEV 模块就更强”,而是:只要把三维空间接口设计对了,VLM 本身就能更有效地处理几何与规划问题。 SpaceDrive+ 的意义在于,它在一个更直接、结构更清晰的空间建模框架下,把 VLM-based planner 的闭环能力稳定地推上去了。
DINO 算法生成具有可解释注意力图的模型:最后一个注意力层自然地关注图像语义一致的部分(图 2)。这允许对象发现算法,例如 LOST。但是,由于特征图中存在伪影,这些方法不再适用于 DINOv2 和其他 ViT(DeiT-III 和 OpenCLIP)。
随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 VLM 来处理文档。为什么你需要使用 VLM为了说明为什么有些任务需要 VLM,我想先举一个例子。 在本节中,我将介绍一些 VLM 已被证明有用的不同领域,其中也包括我成功应用 VLM 的场景。智能体应用场景如今 AI 智能体非常热门,VLM 在其中也扮演着重要角色。 VLM 处理这些信息后,输出期望的信息。然而,你应该权衡使用 VLM 和 LLM 的利弊。显然,当任务需要文本和视觉信息时,你需要使用 VLM 才能获得正确结果。 此外,如果 VLM 需要处理文本,你还需要高分辨率的图像,以便 VLM 能够解读构成字母的像素。分辨率过低时,VLM 难以读取图像中的文本,你会得到质量较差的结果。 运行 VLM 的成本第一个局限是运行 VLM 的成本,我在文章前面也简要讨论过。VLM 处理图像,而图像由大量像素组成。这些像素代表大量信息,这些信息被编码成 VLM 可以处理的 token。
什么是VLM 视觉语言模型(VLM)是同时处理图像和文本的人工智能系统。它们连接了计算机视觉(理解视觉数据的人工智能)与自然语言处理(理解语言的人工智能)。 2025年最具影响力的十大视觉语言模型(VLM)的更深入概述,解释它们在不同用例中的差异——涵盖视频、工业工作再到轻量级边缘处理。 十大最佳VLM模型 1. Gemini 2.5 Pro(谷歌) 这是谷歌最先进的专有VLM,其特点是其“思维模型”架构,在响应前“深入思考”问题,一步步进行。 InternVL3-78B InternVL3-78B 之所以成功,是因为它开源且是一款非常受欢迎、强大的工业级VLM,具备工业和三维推理能力。 Phi-4多模态/Pixtral 这类VLM(多模态视频语言模型)是轻量级的、以边缘为先的类型。
一、VLM技术解析:为何它是连锁商业的“理想型”?VLM的核心突破,在于其多模态融合能力。 二、应用场景构想:VLM如何重塑“巡店”与“运营”?基于上述技术特性,VLM正在连锁商业中催生一系列创新的智能化应用场景:· 新一代智能巡检:巡检系统不再是一套固定的“是/否”判断题库。 对于“顾客排队超过5人时应开放备用收银台”这类包含时间逻辑和场景判断的复杂规则,VLM能够结合视频流进行持续监测与判断,确保标准在复杂现实场景中的有效执行。 · 沉浸式员工赋能:结合AR眼镜或移动设备,VLM可以成为一线员工的实时“AI教练”。 三、展望与思考:技术普惠下的未来连锁商业VLM为代表的多模态大模型,其趋势是将AI技术从“专家定制”的高昂时代,推向“泛化可用”的普惠阶段。
多模态VLM模型工业缺陷检测的优势在于真正意义上的“零样本”,无需针对特定任务训练,灵活度高,可应对开放词汇描述的新缺陷。工业支持急速五分钟换型、四张参考样本准确率可以达到99%。 重磅发布 视觉领域融合文本提示,实现多模态感知决策,构建与应用视觉语言模型(VLM)已成为视觉算法工程师通往未来的关键能力。 为了更好的帮助大家理解与掌握多模态VLM开发技术,OpenCV学堂通过2025年一年的时间,研发了这套多模态工业零样本缺陷检测课程,帮助大家在2026年更好的起飞。 、GPT3模型架构;掌握VIT、DieT、Swin、RTDERT、RFDETR等主流视觉Transformer模型从训练到部署、深入理解CLIP、DINOv2、DINOv3、SAM2等视觉语言大模型(VLM )结构,掌握基于VLM的图像分类、对象检测、OCR识别、零样本工业异常检测、异常分割、PCA主成分分析、小样本训练、知识蒸馏等主流VLM开发技术、掌握视觉语言模型与多模态模型的全栈开发技术,成为多模态VLM
最新研究 VisPlay 首次提出了一个自进化强化学习框架,使 VLM 能够仅通过海量的未标注图像数据进行自我演化和能力提升。 VisPlay 将基础 VLM 分解为「提问者」和「推理者」两大角色,通过迭代的自我进化机制协同进化,并结合 GRPO 算法和创新的多样性/难度奖励,平衡了问题的复杂度和答案的质量。 引言: VLM 推理能力的「数据困境」 近年来,Vision-Language Model(VLM)在感知任务上取得了不小的进展,但在更复杂的视觉推理上仍然吃力。 VisPlay 的核心理念是自我进化(Self-Evolving):它从一个基础预训练 VLM 出发,将其在训练过程中分解成两个相互作用的角色。 有效抑制「幻觉」: VisPlay 通过自我进化生成的高质量问答对,有效帮助模型识别和修正错误的视觉-语言关联,显著减少了模型产生「幻觉」现象的概率,这是一个困扰 VLM 的重大问题。
针对这一问题,该团队系统分析了VLM中attention的行为特性,提出了一种Attention Debiasing(注意力去偏)方法,在无需重新训练模型的前提下,有效提升了多种主流剪枝方法的稳定性与可靠性
作者介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效部署在消费者级GPU服务器上。作者的工作直接解决了阻碍大规模多模态系统广泛采用的昂贵服务成本这一关键行业问题。 作者称之为Xmodel-VLM的结果是一个轻量级但强大的多模态视觉语言模型。 在众多经典多模态基准测试的广泛测试中,尽管Xmodel-VLM的规模更小、执行速度更快,但其性能却与大型模型相当。 在本文中,作者介绍了Xmodel-VLM,一个由紧凑型语言模型驱动的创新视觉语言助手。 作者的贡献如下: 作者深入探讨了在数TB数据上精心训练的小型中英语言模型的性能和能力。 如表5所示,作者的分析表明,尽管参数数量较少,作者提出的Xmodel-VLM 1.1B模型展现了具有竞争力的性能。 作者评估了模型的推理延迟,与LLAVA-7B和Mobile-VLM模型进行了比较。 在流行的VLM基准测试上的大量实验证明了其有效性。
本文重点比较了两种具有代表性的基于VLM的方法,它们体现了不同的设计理念。 WinCLIP采用相对直接的方法,通过精心设计的提示集成与基于窗口的密集视觉特征采样相结合。
VLm2Vec: 作者采用预训练的视觉语言模型Phi-3.5-V(Abdin等人,2024年)作为VLm2Vec的 Backbone 。 这些因素使得VLm2Vec成为任务泛化的理想选择。作者在20 MMEB训练数据集上训练VLm2Vec,并使用对比学习方法,将其性能与各种 Baseline 进行了比较。 3 Vlm2Vec: Transforming LVMs to Embedders Contrastive Training 作者开发了Vlm2Vec,这是一个对比训练框架,旨在将任何最先进的视觉语言模型转换为嵌入模型 对于预训练的VLM,作者在 Query 和目标后添加一个[EOS] Token ,然后将其输入到VLM中,通过取最后一层[EOS]向量获得 Query 和目标嵌入()。 作者将这三个模型称为VLM2VecRET,在8个检索任务上训练,VLM2VecVQA,在6个视觉问答任务上训练,VLM2VecCLS,在5个分类任务上训练。
多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。 针对这一问题,北京大学计算机学院联合字节跳动提出了ConBench,弥补了这一缺陷。ConBench评测流程简洁快速,目前合并至LLaVA官方推理库lmms-eval中,欢迎大家试用。