搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

别卷单模态了！YOLO+多模态才是未来场景实战的“天选方案”
文章围绕轻量化多模态融合、动态模态选择机制、开放词汇检测等核心方向，分析了如MM-YOLO、LMS-YOLO、YOLO-World等代表性工作所引入的门控机制、模态对齐策略与跨模态语义引导方法，展现了YOLO 于是，多模态融合检测技术快速崛起，YOLO也不再局限于“看图识物”，而是学会了“多感官协同感知”。本文将结合近年来YOLO家族与多模态目标检测的前沿研究，带你快速了解：YOLO+多模态为何成为趋势？当前主流的多模态融合方法有哪些？多模态检测如何实现轻量部署？开放词汇、语义引导等新范式如何与YOLO结合？一、RGB-only YOLO，为何渐显疲态？（CDS）：交换可见光与红外图像的局部区域，增强模型对模态差异的鲁棒性轻量化设计：嵌入YOLOv5架构，参数量仅0.81M，较基准模型低7.7倍亮点：动态融合：在FLIR、KAIST等数据集上mAP提升展望未来，YOLO + 多模态检测将在以下几个方向继续突破：模态感知更“聪明”：动态融合与选择机制主导主流尽管现有多模态YOLO方法（如MM-YOLO、CDC-YOLOFusion）已实现图像层面的双流融合
1.9K11编辑于 2025-07-25
来自专栏云云众生s
5个实际开源的多模态AI模型
了解最新的开源多模态AI系统，以下列出了五个领先的选项，包括其功能和用途。虽然市场上已经存在许多强大的、专有的多模态AI系统，但小型多模态AI模型和开源替代方案也正在迅速发展，因为用户不断寻求更易访问和更易适应的选项，并优先考虑透明度和协作。为了让您了解最新的开源多模态AI系统，我们将概述一些更受欢迎的选项，包括它们的功能和用途。 1. Leopard旨在解决多模态AI领域的两大挑战，即高质量多图像数据集的稀缺性以及图像分辨率与序列长度之间的平衡。 5. xGen-MM 也被称为 BLIP-3，这是来自Salesforce 的一套最先进的开源多模态模型，它包含一系列变体，包括一个预训练基础模型，一个指令微调模型和一个旨在减少有害输出的安全微调模型。
2.1K10编辑于 2024-12-14
来自专栏云云众生s
5个小型多模态AI模型及其功能
随着对多模态AI系统兴趣的增长，这些多功能工具的小型版本也随之增多。现在，随着人们对能够同时处理不同类型数据（图像、文本、音频和视频）的多模态AI系统的兴趣日益增长，这些多功能工具的小型版本也随之增多。在本文的其余部分，我们将介绍五种最近备受关注的小型多模态AI工具。 1. 5. Mississippi 2B 和 Mississippi 0.8B 最近由H2O.ai发布，这两个多模态基础模型专为OCR和文档AI用例而设计。结论多模态模型以及大型语言模型的可访问性和成本效益仍然是主要问题。但随着越来越多的相对轻量级但功能强大的多模态AI选项可用，这意味着更多机构和小型企业将能够在其工作流程中采用AI。
70710编辑于 2024-12-04
来自专栏啄木鸟软件测试
多模态大模型技术原理及实战(5)
国内外多模态大模型对比国内 LLaMA-Adapter V2 香港中文大学双语输出输入 •图像 •语音 •文本 •视频 • 3D 点云起源：LLaMA-Adapter •在线性层上进行偏差调整 •4、ChatGLM-6B 在 GLM 框架下，专门针对中文问答和对话进行了优化 mPLUG-Owl 阿里巴巴达摩研究院 2023年5月架构 •视觉基础模块(采用开源的VTL-L) •视觉抽象模块多模态大模型评测数据集国内评测数据集 OwlEval •基于mPLUG-Owl模型发布 • 包含 •50 张图片 •82 个回题 •功能 •故事生成 •广告生成 •代码生成 MME •开发 •结构 •265 016张图片 •每张图片至少有 3 个问题(平均 5.4个每个问题） •每个问题 •有 10 个基本事实答案 •有 3 个合理(但可能不正确)的答案多模态大模型的评测标准国内评测标准 •KROCC( Kendall Rank Order Correlation Coefficient，肯德尔秩相关系数) •RMSE( Root Mean Square Error,均方根误差 ) 多模态大模型对比
35710编辑于 2024-09-10
来自专栏我爱计算机视觉
EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
Motivation 视觉语言BERT模型扩展了BERT架构，以生成多模态输入的跨模态上下文表示。当对一系列下游任务进行微调时，这些模型已被证明是非常有效的。如果测试过程中，去除某个模态的信息，对最终结果影响很大，那这个模态在最终预测的时候就是有用的；否则这个模态就是没用的。多模态模型在预测时使用由多模态输入触发的跨模态激活。这是原始的多模态设置，因此，有效使用多模态信息的模型应该表现最好。 Object：在这里，作者只删除与对齐的文本短语相对应的图像区域，该模型仍然可以使用周围的视觉上下文特征。 ▊ 5. 总结本文介绍的跨模态输入消融诊断证明了预训练的视觉和语言模型中的不对称性：mask文本的预测受到消融视觉输入的强烈影响；而在预测mask图像区域时，消融文本输入几乎没有影响。测试的模型显示了vision-for-language，而不是language-for-vision的结果，这一事实可能是多模态任务的积累，因为一些下游多模态任务需要强烈的 vision-for-language
2.5K20发布于 2021-09-28
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。多模态理解包含多模态编码器，输入投影与大模型主干三个部分，而多模态生成则包含输出投影与多模态生成器两个部分，通常而言，在训练过程中，多模态的编码器、生成器与大模型的参数一般都固定不变，不用于训练，主要优化的重点将落在输入投影与输出投影之中 5.多模态应用以下是多模态大模型在表情识别和效价唤醒(VA)的应用，挑战要求参与者以时间连续的方式(即每0.25秒)预测情绪维度(即唤醒和效价)我们提出的方法主要由三个模块组成:预处理和特征提取模块、损失函数和融合模块
5.7K13编辑于 2024-05-14
agent多模态学习
二、多模态 Agent 的整体架构一个完整的多模态 Agent 系统通常包含以下层次，其数据流如下：用户多模态输入 → 多模态感知层 → 意图理解与规划层 → Agent 协作层 → 工具/环境交互层 → 反馈与优化层 → 多模态输出 2.1 多模态感知层 (Multimodal Perception Layer) 作为系统的“感官”，负责将原始的多模态输入转换为结构化的特征向量。目标检测与分割：在需要精确定位的应用中，可使用 Faster R-CNN、YOLO 等模型识别图像中的特定对象。四、多模态意图理解与任务规划 4.1 多模态意图识别多模态意图识别旨在从用户的文本、图像、语音等多种输入中，准确判断其核心需求。多模态分类模型：训练一个分类器，输入为多模态特征，输出为意图标签。 LLM 直接判断：利用 GPT-4V 等具备视觉能力的模型，直接分析多模态输入并输出意图。
49710编辑于 2026-01-15
来自专栏CSDN社区搬运
多模态COGMEN详解
在本文中，我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN）系统，该系统利用了本地信息（即说话人之间的内/外依赖性）和全局信息（上下文 “iemocap_4” --modalities=“atv” 部署方式下载我训练好模型，以及数据集，附件里有data，modelcheckpoint文件夹，分别替换代码中的文件夹即可，我对每个单独的模态都有训练
32410编辑于 2024-12-05
【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。模型训练与优化要点数据准备：需对齐的多模态数据集（如COCO-Captions、AudioSet）。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
30410编辑于 2026-01-20
GPT-5多模态与情境感知AI技术解析
GPT-5以分钟级代码生成能力注入"人性化"AI语音该模型具备增强的自主行动与推理能力，例如在演示中仅用数分钟便编写400余行代码创建交互式物理模拟。用户无需手动选择深度推理模式，GPT-5可自动判断问题复杂度，同时支持通过下拉菜单强制激活深度推理。 OpenAI研究主管在直播中表示："其目标是提供恰到好处的思考量以生成完美答案"。 API提供三种变体： GPT-5：面向逻辑与多步骤任务的前沿模型 GPT-5-mini：低成本轻量版 GPT-5-nano：低延迟场景专用优化版开发者可调节"详细度"参数，并选择"极简模式"以满足超低延迟需求技术泄漏事件正式发布前，部分GPT-5技术资料曾短暂出现在代码托管平台。尽管近期有观点认为生成式AI进入平台期，但分析师强调GPT-5在推理精度、领域准确性与幻觉控制方面实现显著突破："性能提升更多源于系统设计创新而非单纯规模扩张"。
36410编辑于 2025-08-11
来自专栏多模态视频理解
多模态算法综述
在UCF101数据集上达到了87%的准确率图片（2）Beyond Short Snippets: Deep Networks for Video Classification，尝试了多种多帧帧见融合策略如自注意力至此视频理解算法演进到了Transformer的自监督网络架构，Transformer有两个优势，（1）更强的网络表征能力，（2）更容易设计自监督的训练任务，从而可以更有效的利用无标注数据，同时也更加注重多模态的内容理解 Vision-language Understanding with Contrastive Learning图片ALBEF包含一个图像编码器（ViT-B/16），一个文本编码器（BERT的前6层），以及一个多模态编码器、多模态预训练方面提供大量的帮助，也给后来的文章提供了崭新的思路BLIP（Bootstrapping Language-Image Pre-training for Unified Vision-Language BLIP采用了判断-生成任务的MED，可以作为单模态编码器，基于图像的文本编码器解码器采用了CapFilt的训练方法，降低噪声图文pair对训练造成的影响图片Mult-streamMult-stream
3.1K30编辑于 2022-07-12
来自专栏一点人工一点智能
多模态认知计算
进而，根据机器对多模态信息的认知模式，从多模态关联，跨模态生成和多模态协同这三个方面对现有方法进行了梳理与总结，系统地分析了其中的关键问题与解决方案。作为多模态认知计算的三条主线，多模态关联，跨模态生成和多模态协同是提升机器认知能力的有效途径，已成为国内外科研人员密切关注的研究热点。本文的组织框架如下：第二节，介绍了多模态关联任务的发展现状，分为多模态对齐，多模态感知和多模态检索三个部分，并进行分析与讨论；第三节，介绍了跨模态生成任务中的跨模态合成和跨模态转换方法，并进行分析与讨论本节从多模态对齐，多模态关联和多模态检索三方面阐述多模态关联相关工作。其中，多模态对齐是一类基础性需求，如图像区域内容和文字词汇的语义对齐，视觉唇部运动与语音声素之间的时间对齐等。从宏观角度来看，前述所有任务都是围绕公式 (5) 中的数据 (D)，信息量 (I) ，融合机制 (A) ，和任务 (T) 来提升机器认知能力 (ρ)。
95830编辑于 2022-12-27
来自专栏素质云笔记
多模态＋Recorder︱多模态循环网络的图像文本互匹配
为了验证提出的选择式多模态循环神经网络的有效性，我们测试了该模型衍生出的多种网络结构，并在两个公开多模态数据库(Flickr30k和Microsoft COCO)上与当前最好方法进行了对比。所提出的选择式多模态循环网络是一个动态模型，在每一时间步，它利用基于上下文的多模态注意机制选择图像文本中语义上相同的目标和词语，并计算其相似性作为图像文本的局部相似性，然后进行序列化融合得到全局相似性。考虑到草图与自然图像可能存在多视角的特征表达，且不同的视角作用差异较大，我们提出了一种基于视角选择的多视角跨模态匹配算法。我们在两个经典的细粒度草图-图像数据集上进行了大量的实验，结果表明所提出的方法可以有效利用多模态多视角特性并提升检索性能。多模态搜索网络上充斥着来自不同数据源的多模态多媒体数据；因此，亟需能够适应各种模态的信息检索系统，例如，在搜索“Dunkirk”电影时，应返回影评的相关文本数据、包含相关视频片段的视频数据、以及相关音频数据
2.8K20发布于 2019-05-26
来自专栏音乐与健康
多模态很简单，搞懂多模态，站在 AI 发展的最前沿
现实世界的信息是多模态的（Multi-Modal），比如：视频 = 图像+声音+文本字幕自动驾驶 = 摄像头+激光雷达+毫米波雷达+GPS医疗AI = X光片+病历文本+基因数据多模态融合（Multi-Modal 今天，我们就来深入拆解多模态融合的奥秘！多模态到底是什么？ “模态” 就是信息的不同形式，比如：举个例子️：你在看一部电影，如果只看画面没声音，体验是不是很割裂？所以，多模态融合就是让AI像人一样，把各种信息整合在一起，提高理解能力！多模态融合有哪些方式？多模态融合一般分三大类：1️⃣ 早期融合（Early Fusion）—— 数据级融合特点：在模型输入阶段，先把所有模态的数据合并成一个大“拼盘”，然后喂给模型。多模态音乐治疗（多感官刺激睡眠疗法），包括声刺激抑制听觉警觉，动态光照重置生物钟，电磁刺激修复脑波节律，芳香分子安抚情绪，它们像精密齿轮般咬合，相辅相成，从不同感官通路“包抄”失眠的症结，让每一个失眠患者重拾安稳睡眠
1.2K10编辑于 2025-07-29
来自专栏全栈程序员必看
多模态情感识别_多模态融合的情感识别研究「建议收藏」
情感表达的模态包括面部表情、语音、姿势、生理信号、文字等,情感识别本质上是一个多模态融合的问题。提出一种多模态融合的情感识别算法,从面部图像序列和语音信号中提取表情和语音特征,基于隐马尔可夫模型和多层感知器设计融合表情和语音模态的情感分类器。提出的多模态识别算法较好地利用了视频和音频中的情感信息,相比于仅利用语音模态的识别结果有较大的提升,相比于表情模态的识别结果也有一定改进,是一种可以采用的情感识别算法。
1.7K10编辑于 2022-06-24
来自专栏云云众生s
用于训练多模态AI模型的5个有用数据集
面向开发者的五大领先多模态数据集，以及这些数据集包含的内容和用途说明。译自 5 Useful Datasets for Training Multimodal AI Models，作者 Kimberley Mok。然而，构建有用的多模态AI模型需要高质量的多模态数据集，这些数据集是训练这些多功能系统的必要燃料——使它们能够超越单一维度或模式，扩展对世界的理解。有如此多的多模态数据集公开可用，很难知道从哪里开始。在这篇文章中，我们将介绍目前可用的最著名的一些多模态数据集，并简要描述它们包含的内容以及它们可能被用于什么。 1. 更多信息，请查看我们关于构建多模态AI应用程序的工具的帖子，以及一些开源和小型多模态AI模型。
1.6K10编辑于 2025-01-17
来自专栏学习
机器学习——多模态学习
多模态学习：机器学习领域的新视野引言多模态学习（Multimodal Learning）是机器学习中的一个前沿领域，它涉及处理和整合来自多个数据模式（如图像、文本、音频等）的信息。随着深度学习的蓬勃发展，多模态学习在许多应用领域中获得了广泛关注，例如自动驾驶、医疗诊断、智能助理等。本篇博客将深入探讨多模态学习的概念、方法以及一些代码示例，帮助读者更好地理解这一重要课题。什么是多模态学习？多模态学习旨在同时处理来自不同模态的数据，从而提高模型的表现能力。多模态学习的挑战多模态学习面临一些独特的挑战，例如：模态间的异质性：不同模态数据的性质差异较大，例如图像是二维数据，文本是序列数据。对齐问题：不同模态之间可能需要对齐，如图像和文本的时间同步。多模态模型能够同时处理这些信息，从而理解视频的内容并进行分类、检索或生成描述。结论多模态学习是一个快速发展的领域，其潜力非常巨大。
62110编辑于 2024-10-10
来自专栏强化学习专栏
多模态智能的发展
文章分类在学习摘录和笔记专栏：学习摘录和笔记（18）---《多模态智能的发展》多模态智能的发展 1 多模态智能定义多模态智能旨在融合多种模态的信息进行处理实现智能应用将多模态信号统一到同一个向量空间中，从而实现了多模态信号的交叉处理。多模态表示：由于其复杂的跨模态交互作用和各模态训练数据与测试数据之间可能存在的失配问题，仍然是一个具有挑战性的问题。 2 多模态智能融合的发展融合是多模态研究中的一个关键问题，它将从不同单模态数据中提取的信息整合到一个紧凑的多模态表示中。早期融合：即特征级融合，直接将从各类单模态数据中提取的特征组合在一起，以强调模态间的相互作用，从而抑制模态间的相互作用。
31610编辑于 2024-12-03
来自专栏喔家ArchiSelf
浅析多模态机器学习
多模态大模型就是指模型可以处理多种结构/类型的数据，例如GPT-4，它既可以处理你输入的文本，也可以处理你上传的图片。那么，多模态到底意味着什么呢？ 1. 什么是多模态？ 3.1 多模态的数据表达多模态数据的最大挑战是以一种方式总结来自多个模态（或视图）的信息，以便综合使用互补信息，同时过滤掉冗余的模态部分。 3.2 多模态机器翻译多模态机器翻译涉及从多个模态中提取信息，基于这样的假设，附加的模态将包含有用的输入数据的替代视图。多模态对齐是找到两种或更多模态之间的关系和对应，多模态融合可能是更重要的问题和挑战之一，协同学习是将学习或知识从一种模态转移到另一种模态的挑战。 files/NAS.pdf 系统学习大模型的20篇论文深度学习架构的对比分析解读Toolformer 解读TaskMatrix.AI 解读ChatGPT中的RLHF 一文读懂“语言模型” 知识图谱的5G
80621编辑于 2023-09-02
来自专栏算法之名
多模态大模型篇
encoder-decoder则是一个完整的Transformer结构，包括一个编码器和一个解码器，以T5、BART为代表，常用于有条件的生成任务(conditional generation)。
1.5K51编辑于 2023-10-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

别卷单模态了！YOLO+多模态才是未来场景实战的“天选方案”

5个实际开源的多模态AI模型

5个小型多模态AI模型及其功能

多模态大模型技术原理及实战(5)

EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

腾讯发表多模态综述，什么是多模态大模型

agent多模态学习

多模态COGMEN详解

【多模态大模型】

GPT-5多模态与情境感知AI技术解析

多模态算法综述

多模态认知计算

多模态＋Recorder︱多模态循环网络的图像文本互匹配

多模态很简单，搞懂多模态，站在 AI 发展的最前沿

多模态情感识别_多模态融合的情感识别研究「建议收藏」

用于训练多模态AI模型的5个有用数据集

机器学习——多模态学习

多模态智能的发展

浅析多模态机器学习

多模态大模型篇

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

别卷单模态了！YOLO+多模态 才是未来场景实战的“天选方案”

5个实际开源的多模态AI模型

5个小型多模态AI模型及其功能

多模态大模型技术原理及实战(5)

EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

腾讯发表多模态综述，什么是多模态大模型

agent多模态学习

多模态COGMEN详解

【多模态大模型】

GPT-5多模态与情境感知AI技术解析

多模态算法综述

多模态认知计算

多模态＋Recorder︱多模态循环网络的图像文本互匹配

多模态很简单，搞懂多模态，站在 AI 发展的最前沿

多模态情感识别_多模态融合的情感识别研究「建议收藏」

用于训练多模态AI模型的5个有用数据集

机器学习——多模态学习

多模态智能的发展

浅析多模态机器学习

多模态大模型篇

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

别卷单模态了！YOLO+多模态才是未来场景实战的“天选方案”