搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
什么是语义分割_多模态语义理解
复现详解：http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html
76720编辑于 2022-09-25
来自专栏AI SPPECH
53_多模态LLM：图像理解的新范式
与传统的单一模态语言模型不同，多模态LLM能够通过整合不同模态的信息，实现更全面、更深入的理解和推理能力。 1.3 多模态LLM的价值与意义多模态LLM的出现为AI技术带来了革命性的变化，其核心价值在于：突破单模态信息孤岛：整合不同类型的信息，提供更全面的理解更接近人类认知方式：人类通常通过多种感官获取信息并综合理解，为后续的多模态理解任务奠定了基础。多模态生成能力突破点：从单一模态输入生成多种模态输出代表性工作：基于文本描述生成高质量图像和视频技术意义：拓展了多模态模型的应用边界 8.2 跨模态理解与推理进展 2025年，多模态LLM在跨模态理解和推理能力方面取得了显著进展跨文化理解理解不同文化背景下的视觉符号和隐喻适应不同地区的视觉表达方式和审美偏好支持多语言环境下的跨模态理解 8.3 多模态LLM的发展趋势展望未来，多模态LLM将沿着以下方向发展： 1.
58710编辑于 2025-11-16
GPT-4.5多模态理解与生成能力分析
GPT-4.5作为OpenAI的最新多模态大模型，在视觉、音频和文本的交互理解与生成方面实现了重大突破。本文将深入分析GPT-4.5的多模态能力及其底层技术实现。统一的多模态架构GPT-4.5采用了全新的统一多模态编码-解码架构，打破了传统多模态系统中各模态处理管道相互割裂的局限。跨模态理解与生成GPT-4.5的真正突破在于其跨模态理解与生成能力，可以在不同模态间无缝转换和融合信息：图像到文本：不仅能描述图像内容，还能理解隐含的上下文和文化意义。音频到文本：能够准确转录并理解多说话人、重叠对话的音频内容。多模态融合理解：当提供包含文本、图像和音频的输入时，GPT-4.5能够综合分析所有模态的信息，形成统一的理解。 GPT-4.5的多模态能力代表了AI朝着真正的通用智能迈出的重要一步，为各行业的创新应用开辟了广阔空间。
64110编辑于 2025-03-28
来自专栏腾讯开源的专栏
开源公告｜多模态内容理解算法框架Lichee开源
导语 Lichee是一个多模态内容理解算法框架项目，其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。由腾讯看点内容算法研发中心研发。经过多次实践迭代，可以大幅缩短信息流内容理解需求的研发周期提升人效。此外，为QQ浏览器2021AI算法大赛-多模态视频相似度赛道提供baseline模型及代码。缩短信息流内容理解需求的研发周期 2.
1.1K20发布于 2021-10-26
来自专栏CreateAMind
MetaMorph：通过指令微调实现多模态理解与生成
这些模型处理多模态输入——主要是图像和语言——并生成文本标记。当前面向“统一”模型（即同时具备多模态理解与生成能力的模型）的尝试，通常将视觉生成视为与视觉理解正交的能力。这些方法往往需要对原始 MLLM 架构进行大幅修改，并依赖大量的多模态预训练和/或微调。与视觉指令微调类似，VPiT 能够高效且有效地将 LLM 转变为一个“统一”模型，同时理解和生成多模态标记。当与充足的视觉理解数据联合训练时，该过程仅需额外约 20 万条视觉生成数据。 VPiT 在标准指令微调设置的基础上引入了以下机制，以同时解锁视觉理解与生成能力：多模态数据的标记化（Tokenizing multimodal data）。从多模态 LLM 到统一模型。近期构建统一模型（即同时支持理解与生成）的努力主要依赖于大规模预训练，或在数十亿规模数据集上进行重度微调。
19210编辑于 2026-03-11
来自专栏我爱计算机视觉
EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响
在本文中，作者对现有模型上的交叉模态输入消融进行了研究，以证明其在理解模型行为方面的实用性。作者测试了具有不同架构但具有相同初始化和训练流程的模型。如果测试过程中，去除某个模态的信息，对最终结果影响很大，那这个模态在最终预测的时候就是有用的；否则这个模态就是没用的。多模态模型在预测时使用由多模态输入触发的跨模态激活。这是原始的多模态设置，因此，有效使用多模态信息的模型应该表现最好。 Object：在这里，作者只删除与对齐的文本短语相对应的图像区域，该模型仍然可以使用周围的视觉上下文特征。测试的模型显示了vision-for-language，而不是language-for-vision的结果，这一事实可能是多模态任务的积累，因为一些下游多模态任务需要强烈的 vision-for-language ▊ 作者简介研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。
2.5K20发布于 2021-09-28
来自专栏机器之心
通用文档理解新SOTA，多模态大模型TextMonkey来了
机器之心专栏机器之心编辑部最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。图 1 TextMonkey 整体架构 1.Shifted Window Attention 现有的多模态大模型，如 Monkey 和 LLaVA1.6，通过将图像切分为小块来提高输入分辨率。 2.Token Resampler 目前的多模态大模型面临着图像 token 数目随着输入分辨率的增加而增加的挑战。由于语言模型的输入长度和训练时间的限制，减少 token 的数量是很有必要的。实验分析 1.TextMonkey 与现有的多模态大模型相比，表现出了优越的性能。 2. 为了进一步验证 TextMonkey 的有效性，本文还在更多数据集上进行了测试。 TextMonkey 在多个文本相关的测试基准中处于国际领先，在 OCRBench 中超越其他开源多模态大模型。
1K10编辑于 2024-03-26
来自专栏DeepHub IMBA
Video-LLaMa:利用多模态增强对视频内容理解
但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。这种动态解释为理解过程增加了一层深度，使模型能够以更细致入微的方式理解视频内容。它集成了视听信号，确保模型完整地理解视频内容。Audio Q-former同时处理和解释视觉和听觉信息，增强对视频内容的整体理解。由于使用的音频编码器(即ImageBind)已经跨多个模态对齐，所以只在视频/图像指令数据上训练AL分支，只是为了将ImageBind的输出连接到语言解码器。这种对齐确保了高水平的准确性和理解力，使模型能够根据视频中呈现的视觉和听觉信息生成有意义的响应。
1.4K20编辑于 2023-08-30
来自专栏存内计算加速大模型
腾讯发表多模态综述，什么是多模态大模型
多模态大模型的整体架构可以被归类为如下图的五个部分，整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤。多模态理解包含多模态编码器，输入投影与大模型主干三个部分，而多模态生成则包含输出投影与多模态生成器两个部分，通常而言，在训练过程中，多模态的编码器、生成器与大模型的参数一般都固定不变，不用于训练，主要优化的重点将落在输入投影与输出投影之中详细的运算过程可进一步分析本文的公式，或者结合Attention Is All You Need理解。3. · 主干网络可能包含自注意力层和前馈网络，以增强模型对多模态数据的理解。多模态预训练模型下游任务下游任务包括理解和生成。理解部分：生成部分：生成任务可以被认为是图像-文本的双重任务，生成任务可以分为文本到图像生成和图像到文本生成（多模式文本生成）。
5.7K13编辑于 2024-05-14
agent多模态学习
1.3 为什么需要“多模态 Agent” 在真实世界中，信息天然是多模态的。例如，用户反馈“这双鞋的鞋跟断了（附破损图）”，客服 Agent 需要同时理解文字和图像才能准确判断问题并启动退货流程。二、多模态 Agent 的整体架构一个完整的多模态 Agent 系统通常包含以下层次，其数据流如下：用户多模态输入 → 多模态感知层 → 意图理解与规划层 → Agent 协作层 → 工具/环境交互层能建模复杂的跨模态依赖，效果通常最好。实现复杂，计算成本高。对理解精度要求高的复杂任务。 3.6 多模态对齐与表征学习多模态对齐的目标是让不同模态的向量在语义空间中相互靠近。四、多模态意图理解与任务规划 4.1 多模态意图识别多模态意图识别旨在从用户的文本、图像、语音等多种输入中，准确判断其核心需求。十、发展趋势与挑战 10.1 技术趋势原生多模态大模型：模型自身具备强大的多模态理解和生成能力，减少对外部工具的依赖。
54110编辑于 2026-01-15
来自专栏智能文本处理
达观纪传俊：多模态文档LayoutLM版面智能理解技术演进
近几年兴起的多模态算法在这一方向上展现出了很好的效果，微软亚洲研究院的研究人员所提出的通用文档理解预训练模型LayoutLM模型就是具有代表性的方法，模型目前是开源的并且已经发布到3.0版本，各个版本都在一系列文档理解任务重取得了领先的效果 2.0模型在多模态预训练阶段直接引入了图像信息，对文本、图像和布局信息进行联合建模。研究人员在四个多模态任务上对 LayoutLMv3 进行了效果测试，包括基于FUNSD数据集测试表单理解任务效果、基于CORD数据集测试票据理解任务效果、基于RVL-CDIP数据集测试文档图像分类任务效果 EPHOIE上也取得了SOTA，证明了多模态技术对于文档理解的可行性和未来巨大的潜力。目前达观基于多模态文档理解技术进行自主研发，处理复杂国际单据、复杂版式文档场景数据，诸如合同、发票、研报、表单等等，也取得了非常优秀的效果，并在银行、证券、报关、制造业等多个不同行业实现了成功落地，为各个行业带来了巨大的效益提升
1.4K20编辑于 2022-12-07
来自专栏CSDN社区搬运
多模态COGMEN详解
概述情绪是人类行动的一个固有部分，因此，开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中，一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中，我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN）系统，该系统利用了本地信息（即说话人之间的内/外依赖性）和全局信息（上下文 “iemocap_4” --modalities=“atv” 部署方式下载我训练好模型，以及数据集，附件里有data，modelcheckpoint文件夹，分别替换代码中的文件夹即可，我对每个单独的模态都有训练
32910编辑于 2024-12-05
【多模态大模型】
多模态大模型的核心能力多模态大模型通过融合视觉、听觉、文本等多维度数据实现综合理解与生成。典型应用包括：图像到文本：识别图片内容并生成描述、广告文案或诗歌。视频理解：解析视频帧、音频流，输出摘要、字幕或关键事件标记。跨模态检索：根据文本搜索相关图像/视频，或反之。代表模型如GPT-4V（视觉增强版）、通义千问多模态版、文心一言（ERNIE-ViLG）均支持此类任务。案例分析：基于多模态模型的图像描述生成场景：电商平台需自动生成商品图片的营销文案。多模态对齐：模型将图像特征与文本语义空间对齐，生成候选描述。输出优化：通过强化学习调整生成文本的流畅性与吸引力。多模态大模型的应用需结合具体场景调整输入预处理与后处理逻辑，以达到最佳效果。
33610编辑于 2026-01-20
原生多模态推理：Gemini 3 如何“理解世界”而非“拼接图像”？
然而，这种方法往往忽略了不同模态之间的复杂关系和语义关联。Gemini 3 是一种新型的多模态推理框架，它通过原生多模态推理技术，能够更好地“理解世界”，而不仅仅是“拼接图像”。跨模态注意力机制原理跨模态注意力机制允许模型在处理某一模态的数据时，关注其他模态的相关信息。这种机制使得模型能够更好地理解和解释多模态数据中的复杂关系。总结Gemini 3 通过先进的多模态数据融合机制、跨模态注意力机制和端到端训练优化，实现了对多模态数据的深入理解和推理。这种原生多模态推理技术不仅能够更好地“理解世界”，还能够应用于各种实际场景，如猴子音悦100万正版音乐的推荐系统。通过本文的介绍和代码示例，希望读者能够对 Gemini 3 有更深入的理解，并能够在实际项目中应用这一强大的技术。总结本文深入探讨了原生多模态推理：Gemini 3 如何“理解世界”而非“拼接图像”？
29110编辑于 2025-12-25
来自专栏多模态视频理解
多模态算法综述
纵览：视频理解算法经过了手工特征-> CNN -> Two stream ->3D卷积 ->Transformer的一步步演进，不断使模型具有更强的表征能力图片手工特征 -> CNN（Large-scale 在UCF101数据集上达到了87%的准确率图片（2）Beyond Short Snippets: Deep Networks for Video Classification，尝试了多种多帧帧见融合策略如，同时也更加注重多模态的内容理解。 Vision-language Understanding with Contrastive Learning图片ALBEF包含一个图像编码器（ViT-B/16），一个文本编码器（BERT的前6层），以及一个多模态编码器、多模态预训练方面提供大量的帮助，也给后来的文章提供了崭新的思路BLIP（Bootstrapping Language-Image Pre-training for Unified Vision-Language
3.2K30编辑于 2022-07-12
来自专栏AI科技大本营的专栏
Shikra：理解指向，说出坐标，多模态语言模型超进化
本工作提出了Shikra模型，赋予了MLLM这样的参考对话能力，既可以理解位置输入，也可以产生位置输出。核心亮点 1. Shikra能够理解用户输入的point/bounding box，并支持point/bounding box的输出，可以和人类无缝地进行参考对话。 2. 如上图所示，Shikra能够精确理解用户输入的定位区域，并能在输出中引用与输入时不同的区域进行交流。像人类一样通过对话和定位进行高效交流。同时在PointQA-Twice、Point-V7W等需要理解位置输入的VQA任务上取得了SOTA结果。然而如何在多模态场景下应用CoT则尚待研究。尤其因为目前的MLLM还存在严重的幻视问题，CoT经常会产生幻觉，影响最终答案的正确性。
60520编辑于 2023-08-08
来自专栏一点人工一点智能
多模态认知计算
日常生活中，人类至少利用视觉，听觉等多种感官理解周围环境，通过整合多种感知模态，形成对事件的整体认识。为使机器更好地模仿人类的认知能力，多模态认知计算模拟人类的“联觉”(Synaesthesia)，探索图像，视频，文本，语音等多模态输入的高效感知与综合理解手段，是人工智能领域的重要研究内容，也是实现“ 在跨模态合成中，利用更加直观，易于理解的模态对信息进行丰富和补充，增大 I。在跨模态转换中，寻找更加简洁的表达形式，在保留信息的同时，减小 D，以此提升信息获取能力。，从而提升模型的理解与认知能力。互补性部分是任一模态都不具备的，它对单一模态的感知能力进行了拓展，以获得更好的场景理解性能，达到模拟人类联觉的能力。 6.3 多模态认知计算面临哪些真实场景?
96130编辑于 2022-12-27
来自专栏素质云笔记
多模态＋Recorder︱多模态循环网络的图像文本互匹配
为了验证提出的选择式多模态循环神经网络的有效性，我们测试了该模型衍生出的多种网络结构，并在两个公开多模态数据库(Flickr30k和Microsoft COCO)上与当前最好方法进行了对比。 . ---- 延伸三：基于选择式多模态循环网络的图像文本匹配来源文章《【技术分享】像人脑一样理解周围世界：脑启发的深度学习模型及其应用》图像文本匹配是多个模式识别任务，例如图像文本跨模态检索考虑到草图与自然图像可能存在多视角的特征表达，且不同的视角作用差异较大，我们提出了一种基于视角选择的多视角跨模态匹配算法。延伸六：“诗画合一”的跨媒体理解与检索——跨媒体理解：video captioning “诗画合一”的跨媒体理解与检索而video captioning领域的基础模型是ICCV 2015上的“ 多模态搜索网络上充斥着来自不同数据源的多模态多媒体数据；因此，亟需能够适应各种模态的信息检索系统，例如，在搜索“Dunkirk”电影时，应返回影评的相关文本数据、包含相关视频片段的视频数据、以及相关音频数据
2.8K20发布于 2019-05-26
来自专栏音乐与健康
多模态很简单，搞懂多模态，站在 AI 发展的最前沿
现实世界的信息是多模态的（Multi-Modal），比如：视频 = 图像+声音+文本字幕自动驾驶 = 摄像头+激光雷达+毫米波雷达+GPS医疗AI = X光片+病历文本+基因数据多模态融合（Multi-Modal 今天，我们就来深入拆解多模态融合的奥秘！多模态到底是什么？ “模态” 就是信息的不同形式，比如：举个例子️：你在看一部电影，如果只看画面没声音，体验是不是很割裂？所以，多模态融合就是让AI像人一样，把各种信息整合在一起，提高理解能力！多模态融合有哪些方式？多模态融合一般分三大类：1️⃣ 早期融合（Early Fusion）—— 数据级融合特点：在模型输入阶段，先把所有模态的数据合并成一个大“拼盘”，然后喂给模型。多模态音乐治疗（多感官刺激睡眠疗法），包括声刺激抑制听觉警觉，动态光照重置生物钟，电磁刺激修复脑波节律，芳香分子安抚情绪，它们像精密齿轮般咬合，相辅相成，从不同感官通路“包抄”失眠的症结，让每一个失眠患者重拾安稳睡眠
1.2K10编辑于 2025-07-29
论文解读 - 统一的多模态理解和生成模型综述（上）
一、简要介绍近年来，多模态理解模型和图像生成模型都取得了显著的进步。应对这些挑战对于提升统一多模态模型的能力和可扩展性至关重要。在社区中，有关大型语言模型、多模态理解以及图像生成的优秀综述文章比比皆是，而论文的工作则特别关注理解和生成任务的整合。三、基础3.1多模态理解模型多模态理解模型是指基于llm的架构，能够接收、推理和生成从多模态输入中生成输出。图2.多模态理解模型架构，包含多模态编码器、连接器和大语言模型。多模态编码器将图像、音频或视频转换为特征，这些特征由连接器处理并作为大语言模型的输入。四、统一的多模态模型用于理解和生成统一多模态模型旨在构建一个能够理解和生成多种模态数据的单一架构。
1K10编辑于 2025-05-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

什么是语义分割_多模态语义理解

53_多模态LLM：图像理解的新范式

GPT-4.5多模态理解与生成能力分析

开源公告｜多模态内容理解算法框架Lichee开源

MetaMorph：通过指令微调实现多模态理解与生成

EMNLP 2021-多模态Transformer真的多模态了吗？论多模态Transformer对跨模态的影响

通用文档理解新SOTA，多模态大模型TextMonkey来了

Video-LLaMa:利用多模态增强对视频内容理解

腾讯发表多模态综述，什么是多模态大模型

agent多模态学习

达观纪传俊：多模态文档LayoutLM版面智能理解技术演进

多模态COGMEN详解

【多模态大模型】

原生多模态推理：Gemini 3 如何“理解世界”而非“拼接图像”？

多模态算法综述

Shikra：理解指向，说出坐标，多模态语言模型超进化

多模态认知计算

多模态＋Recorder︱多模态循环网络的图像文本互匹配

多模态很简单，搞懂多模态，站在 AI 发展的最前沿

论文解读 - 统一的多模态理解和生成模型综述（上）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐