以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。 具体而言,实验评估了视觉 token 在 LMMs 不同层中的重要性,涵盖了多种 LMMs,以识别不同规模和训练数据集的模型之间的共性。 视觉 token 在 LMMs 不同层中获取的注意力权重 LMMs 中不同层的注意力可视化 分析发现: 1. 视频理解评估 如上表所示,LLaVA-Mini 在视频理解上优于目前先进的视频 LMMs。 LLaVA-Mini 的响应延迟低于 40 毫秒,这对于开发低延迟实时 LMMs 至关重要。 视频处理是 LMMs 面临的另一个挑战,特别是在显存消耗方面。
本文主要作者来自LMMs-Lab团队与新加坡南洋理工大学,分别是张恺宸、沈逸飞、李博,指导老师为MMLab@NTU刘子纬教授。 LMMs-Lab是一个由学生,研究人员和教师组成的团队,致力于多模态模型的研究,主要研究方向包括多模态模型的训练以及全面评估,此前的工作包括多模态测评框架 LMMs-Eval,以及多模态模型 LLaVA-OneVision 多模态大模型(LMMs)给语言模型装上了 “眼睛”,让 AI 更接近通用智能。但它们的大脑里每个神经元到底在干啥? 南洋理工大学 LMMs-Lab 团队用 “模型看模型” 的方法,成功解锁了数十万神经元的秘密。 来自南洋理工大学的 LMMs-Lab 团队给出的解决方案是:问问 LLaVA 自己是怎么说的。
为了全面评估语言模型(LMMs)的能力,研究人员构建了多个常见的视觉问答基准测试,这些测试旨在评估LMMs的图像-文本理解和对话能力。 此外,论文在评估中加入了年龄因素,以帮助LMMs为不同的人口群体提供个性化的响应。•通过MDI基准集,论文对几种主流的LMMs进行了全面的评估。 然而,在体育场景中,LMMs的表现存在一些不足,论文认为这与当前LMMs的训练数据密切相关。 为了分析这些语言模型(LMMs)在多个层级上的详细表现,论文制作了雷达图(图4),展示了14个LMMs在一级和二级不同场景下的表现。 因此,论文建议未来的研究应着重于提高LMMs对人类需求的适应性及其在不同领域和年龄组中的泛化能力。这将为下一代能够有效满足人类需求的LMMs铺平道路。
虽然已经有一些尝试将LLMs应用于基于文本的情感分析,但对于LLMs和LMMs在多模态情感分析中的应用缺乏系统和全面的分析。因此,目前尚不清楚现有的LLMs和LMMs在多模态情感分析中的适用程度。 在这项工作中,我们旨在全面回顾基于LLMs和LMMs的文本中心的多模态情感分析方法的当前状态。具体而言,我们关注以下问题: LLMs和LMMs在各种多模态情感分析任务中的表现如何? 由于LMMs也是基于LLMs的,为了方便表述,下面基于LLMs的方法包括基于LMMs的方法。 本文的其余部分组织如下。第2节介绍LLMs和LMMs的背景知识。 大型多模态模型 大型多模态模型(LMMs)旨在处理和整合各种数据类型,如文本、图像、音频和视频。LMMs通过引入额外的模态扩展了LLMs的能力,从而更全面地理解和生成多样化的内容。 LMMs的发展是为了更准确地反映人类交流和感知的多模态性质。虽然传统的LLMs如GPT-4主要是基于文本的,LMMs能够处理和生成跨各种数据类型的输出。
在本文中,作者从模型架构、训练策略和训练数据等方面对轻量级LMMs进行了系统研究。 基于作者的发现,作者获得了Imp一系列在2B \sim 4B规模下能力极高的LMMs。 值得注意的是,作者的Imp-3B模型在所有现有相似规模的轻量级LMMs中表现稳定地超越,甚至超过了13B规模下的最先进LMMs。 尽管对7B/13B LMMs进行了一些系统研究[29, 37],但没有明确证据表明这些经验性的设计选择可以直接转移到规模小得多的LMMs上。 LLM的成功也促进了大型多模态模型(LMMs)的研究兴趣,这些模型旨在赋予LLM处理多种模态的能力。 大型多模态模型(LMMs)。 LMMs的研究大致可以分为两条线: 松耦合和紧耦合的方法。 后续研究构建了多样化和高质量的多模态指令数据集,以增强所学LMMs的特定能力。 轻量级LLMs和LMMs。
大型多模态模型(LMMs)在视觉理解和推理方面取得了令人瞩目的成功,显著提高了视觉环境中数学推理的性能。 然而,在视觉数学中存在一种具有挑战性的类型——多模态图论问题,这要求LMMs准确理解图形结构并对视觉图进行多步骤推理。 为了在这方面向前迈进,我们是第一个设计了一个名为VisionGraph的基准,用于探索先进LMMs解决多模态图论问题的能力。它包括八个复杂的图问题任务,从连通性到最短路径问题。 我们的广泛研究表明:1)GPT-4V在多步图推理方面胜过Gemini Pro;2)所有LMMs对图形结构的感知精度不高,无论是在零/少次学习设置还是在有监督的微调(SFT)中,这进一步影响了问题解决性能 ;3)DPR显著提高了LMMs的多步图推理能力,而GPT-4V(DPR)代理达到了SOTA性能。
LMMS/lmms Stars: 6.8k License: GPL-2.0 这是一个关于音乐制作软件的开源项目,名为LMMS。它是一款跨平台的免费替代品,可以让你用电脑创作音乐。 LMMS提供了丰富的功能,包括创建旋律和节奏、合成和混音声音以及样本编排等等。在用户友好且现代化的界面下,你还可以使用MIDI键盘来增加更多趣味性。 LMMS是一个令人印象深刻且功能强大的开源项目,它为音乐制作爱好者和专业人士提供了一个免费且高质量的选择。 无论你是初学者还是经验丰富的音乐制作人员,都可以通过LMMS实现自己对音乐创作艺术无限可能性的探索。 相关链接 https://github.com/audacity/audacity https://github.com/LMMS/lmms https://github.com/mixxxdj/mixxx
LMMS LMMS 是一个跨平台音乐制作软件,可以用来使用计算机制作音乐,包括创作旋律和节拍、声音的合成和混合,以及编排样本等。 导入 MIDI 文件和 Hydrogen 工程文件 LMMS 最新版本为 1.2.1,支持 Windows、Linux、macOS 各平台,Windows 安装包约为 30M 左右,比较小巧。 LMMS下载链接 https://lmms.io/download#windows Release 1.2.2 · LMMS/lmms (github.com) 5.
那么,多模态大模型(LMMs)能通过观看视频实现「课堂学习」吗? 对于多模态大模型(LMMs)来说,视频不仅是它们感知世界的窗口,更是获取知识的重要途径。 南洋理工大学S-Lab团队推出Video-MMMU数据集是首个评测LMMs从多学科专业视频中提取、理解并运用知识能力的创新基准。 Video-MMMU 的发布,为评估和改进LMMs的知识获取能力提供了全新视角。如果人类的课堂是学习的起点,那么 Video-MMMU 就是LMMs走向课堂的一扇大门。 如何提升LMMs的学习效率和稳定性,将是提升视频知识获取能力的关键。 错误分析 作者对Claude-3.5-Sonnet在运用阶段的100个错误进行了分类,分析模型做错的根本原因。
论文通过以下几个步骤来解决大型多模态模型(LMMs)中的幻觉问题: 系统性研究:首先,论文对LMMs在处理语言、视觉和音频输入时产生的幻觉进行了系统的分析,识别了两个关键因素:对单一模态先验的过度依赖( 通过这些步骤,论文不仅诊断了当前LMMs的关键弱点,还为开发更可靠和健壮的多模态系统提供了指导。 论文做了哪些实验? 评估不同的LMMs:作者在CMM基准测试上评估了一系列最新的LMMs,包括能够处理视觉和音频输入的模型、仅视觉的模型和仅音频的模型。 这些实验为理解LMMs中的幻觉问题提供了实证基础,并为如何减轻这些幻觉、提高模型的可靠性提供了见解。 分析与讨论:通过实验评估,论文揭示了当前LMMs的一些关键弱点,例如不平衡的多模态整合和由训练数据集引起的偏见。
语义依赖 LMMs在识别缺乏语义的字符组合时表现出较差的识别性能。 平均而言,LMMs在这项任务中的性能比Supervised-SOTA差了51.9%。 由于BLIP2等LMMs的输入分辨率受限,它们在场景文本问答、文档问答和关键信息抽取等任务中提取细粒度信息的能力较弱。 鉴于这些限制,本文进一步构建了OCRBench,以方便而准确地评估LMMs的OCR能力。 总结 本文对LMMs在OCR任务中的性能进行了广泛的研究,包括文本识别、场景文本问答、文档问答、KIE和HMER。
先进的多模态大模型(Large Multi-Modal Models, LMMs)通常基于大语言模型(Large Language Models, LLMs)结合原生分辨率视觉 Transformer( MGPO 的核心创新点包括: 1)自上而下的可解释视觉推理:赋予了 LMMs 针对高分辨率场景的 「自上而下、问题驱动」 视觉搜索机制,提供可解释的视觉 Grounding 输出; 2)突破最大像素限制 介绍 当前,以 Qwen2.5-VL 为代表的多模态大模型(LMMs)通常基于强大的语言模型(如 Qwen2.5)结合外部原生分辨率视觉 Transformer(NaViT)构建。 受这一生物机制启发,我们尝试通过视觉 Grounding 为 LMMs 赋予类似的视觉搜索能力,使其聚焦于图像中的关键区域。 本文提出基于视觉 Grounding 的多轮强化学习算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多轮交互中自动预测关键区域坐标
大型多模态模型(LMMs)在各种复杂视觉任务中取得了显著进展,这得益于它们从大型语言模型(LMMs)中继承的坚实的语言和推理能力。 在本文中,作者提出了一种端到端的解决方案,使各种视觉任务受益于LoRA LMMs,丰富了视觉应用。 作者在三种LMMs上的五个流行视觉任务上进行了V-LoRA的原型。 作者实现了V-LoRA,并对三种实际LMMs进行了五个流行的分析任务评估。实验结果显示,与原始LMMs相比,V-LoRA的准确率达到了24-62%,与最先进的方法的延迟相比为20-89%。 2. V-LoRA在视觉应用和LMMs下都实现了比dLoRA、Punica和SLoRA显著降低的平均 Token 延迟。图14的第一行显示了它们在三个LMMs上的视觉检索性能。
本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架包括精心策划的数据集、训练配方、模型架构以及一系列LMMs。 1 Introduction 大型多模态模型(LMMs)因其潜在的应用和新兴能力而受到广泛关注。 最近,专有模型[2-5]和开源LMMs[6, 1, 7-11]的进展突显了这一领域的快速进步和日益增长的兴趣。 这些限制阻碍了开源社区复制、理解和改进LMMs。 近期的工作表明,大规模和高质量的数据对于训练稳健的LMMs至关重要[8-12]。 BLIP-2[1]是探索LMMs的先驱之一,它利用合成数据在当时取得了令人印象深刻的结果(图1(a))。然而,BLIP-2使用的数据在规模、质量和多样性方面不足以与现今更现代的LMMs相匹敌。
本文探讨如何利用大型多模态模型(LMMs)和文本到图像模型构建一个更通用的身体代理。LMMs在规划涉及符号抽象的长期目标方面表现出色,但往往在物理世界的实现上存在困难,无法准确识别图像中的目标位置。 LMMs在物理世界中的符号抽象长程规划任务上表现出令人惊讶的能力[42]。然而,仍有一部分问题尚未解决。它们在将文本世界与物理世界联系起来时遇到了困难。 LMMs似乎知道“接下来要做什么”,但他们不了解“世界是如何运作的”。因此,需要一个世界模型(动力学模型)来连接LMMs和物理世界。有两大可能解决方案。 一是将环境动力学隐式地集成到LMMs中,即根据海量的状态-动作序列对LMMs进行微调,如PaLM-E[7]和RT-2[11]。然而,直接训练大型模型需要大量的数据和计算资源。 另一种是明确引入一个预先训练的世界模型,例如文本到图像模型[32; 34],供LMMs作为辅助工具使用。作者的工作探索了第二条道路。
这些领域包含了广泛的 CoT 相关场景,旨在全面评估 LMMs 的推理能力。 2. 进行广泛的实验和分析 论文选择了多种最先进的 LMMs 进行评估,包括开源和闭源模型。 然而,CoT 在大型多模态模型(LMMs)中的影响尚未得到系统评估。 多模态模型(LMMs):LMMs 在视觉领域表现出色,但 CoT 推理对多模态任务的影响仍是一个开放问题。 这篇论文试图探索无编码器(encoder-free)架构在三维(3D)大型多模态模型(Large Multimodal Models, LMMs)中的潜力,以解决基于编码器的3D LMMs面临的挑战。 主流LMMs的局限性:主流的LMMs通常依赖于强大的多模态编码器,如CLIP(用于2D图像)和I2P-MAE(用于3D点云)。
为了解决这些问题,作者引入了DocEdit-v2,这是一个利用大型多模态模型(LMMs)实现端到端文档编辑的新颖框架。 (2)基于LLM的命令调整,将原本用于特定软件的编辑命令调整为人机通用LMMs的编辑指令。 最近,如GPT-4V(OpenAI,2023)和Gemini等大型多模态模型(LMMs)在文档理解、目标定位、密集描述和代码合成方面展示了惊人的能力。 最后,DocEdit-v2利用GPT-4V和Gemini等LMMs通过将编辑指令和定位的RoI相结合的多模态 Prompt 编辑文档的HTML结构。 生成文档编辑:表3和4显示了使用GPT-4V和Gemini作为基础LMMs进行端到端文档编辑任务的结果。
高分辨率大型多模态模型(LMMs)面临着视觉token过多和二次视觉复杂性的挑战。当前的高分辨率LMMs解决了二次复杂性问题,但仍然生成过多的视觉token。 带裁剪的高分辨率LMMs。 高分辨率LMMs的代表性裁剪方法是在LLaVA-NExT[31]中引入的,该方法将图像划分为四个块,每个块分别由ViT独立编码,然后拼接起来供LLM处理。 带额外视觉编码器的高分辨率LMMs。 对于高分辨率图像理解,结合辅助视觉编码器不会显著增加视觉标记的数量。 此外,从低质量表示(例如,LAION-CLIP-ConvNeXt)中提取特征可能会潜在地损害LMMs的性能[14, 51]。 5 Conclusion 在本论文中,作者深入探讨了当前LMMs视觉编码器的局限性:平方空间复杂度和大量的视觉标记。过多的视觉标记是更根本的问题。这些缺陷阻碍了LMMs高效理解高分辨率图像的能力。
大型多模态模型(LMMs)在各种任务(例如,图像字幕生成、视觉问题解答)上展现出了卓越的能力。 虽然简单,但现有的大型多模态模型(LMMs)[1; 2; 3; 4]并未设计用来回答此类_个性化_问题。 总之,作者的主要贡献包 个性化大型多模态模型:作者引入了一个新颖的任务,即个性化LMMs,使它们能够适应并回答特定用户的概念。 这些进步已经被进一步扩展,作者现在有了能够进行语言理解以及视觉感知的系统,即大型多模态模型(LMMs)[26; 2; 4; 10]。 这些LMMs代表了一个突破性的前沿,使模型能够处理并推理输入图像和文本,应用范围涵盖了诸如具身人工智能和机器人技术等各个领域。
引言 随着多模态大模型(LMMs)的快速发展,如何高效处理视觉和语言信息成为研究热点。 为了在减少视觉token的同时保持视觉理解能力,研究者首先分析了 LMMs如何处理和理解大量视觉token。 分析集中在LLaVA架构,特别从注意力机制的角度探讨了视觉token的作用及其数量对LMMs性能的影响。 具体而言,实验评估了视觉token在LMMs不同层中的重要性,涵盖了多种 LMMs,以识别不同规模和训练数据集的模型之间的共性。 图4展示了LLaVA-v1.5各层的注意力分布。 1)图像理解评估 2)视频理解评估 LLaVA-Mini在视频理解上优于目前先进的视频LMMs。